CN114691845A - 语义搜索方法、装置、电子设备、存储介质及产品 - Google Patents

语义搜索方法、装置、电子设备、存储介质及产品 Download PDF

Info

Publication number
CN114691845A
CN114691845A CN202210161709.4A CN202210161709A CN114691845A CN 114691845 A CN114691845 A CN 114691845A CN 202210161709 A CN202210161709 A CN 202210161709A CN 114691845 A CN114691845 A CN 114691845A
Authority
CN
China
Prior art keywords
semantic
natural
data
quadruple
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210161709.4A
Other languages
English (en)
Other versions
CN114691845B (zh
Inventor
余军
罗长寿
郑亚明
魏清风
于峰
曹承忠
陆阳
王富荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Academy of Agriculture and Forestry Sciences filed Critical Beijing Academy of Agriculture and Forestry Sciences
Priority to CN202210161709.4A priority Critical patent/CN114691845B/zh
Publication of CN114691845A publication Critical patent/CN114691845A/zh
Application granted granted Critical
Publication of CN114691845B publication Critical patent/CN114691845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种语义搜索方法、装置、电子设备、存储介质及产品。该方法包括:获取自然语句;根据语义结构模型对自然语句进行结构映射,获得自然语句的三元组实例;对三元组实例进行实体映射,获得自然语句包含的实体,对自然语句包含的实体根据语义结构模型进行数据关系索引,获得四元组实例集,四元组包括三元组实例和数据关系实例;计算三元组实例和自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取四元组实例推荐集;根据四元组实例推荐集包含的数据关系实例提取自然语句的词关系模型,根据词关系模型对数据库进行搜索,获得知识结果集。本发明结合大数据进行语义搜索,实现知识挖掘,满足了用户对数据的共享与发现。

Description

语义搜索方法、装置、电子设备、存储介质及产品
技术领域
本发明涉及大数据技术领域,尤其涉及一种语义搜索方法、装置、电子设备、存储介质及产品。
背景技术
信息化建设至今,积累了大量存贮于各类业务数据库中的数据,各类数据库成百上千,然而,传统的搜索方式不能满足用户对数据的共享与发现,知识挖掘困难。当前各类语义搜索都侧重研究某一方法,并没有给出一个完整的语义搜索模型。例如,基于本体的语义搜索方法,该方法使用现有的平台基于RDF三元组使用本体描述领域知识库,并在知识库中进行查询,该方法局限性为对于多平台的大数据库环境没有给出统一的搜索关系模型;再如,扩充的基于本体的文档检索方法(OntDR)、采用关键词查询的语义检索(SPARK)和提高元数据库的数据发现机率的语义搜索等注重语义挖掘方法等,这些方法同样无法解决分布式、多样、异构大数据库环境下的搜索问题。
发明内容
本发明提供一种语义搜索方法、装置、电子设备、存储介质及产品,用以解决现有技术中知识挖掘困难的缺陷,实现数据的发现和知识的挖掘。
本发明提供一种语义搜索方法,包括:
获取自然语句;
根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的三元组实例;
对所述三元组实例进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体根据语义结构模型进行数据关系索引,获得所述自然语句的四元组实例集,所述四元组包括三元组实例和数据关系实例;
计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集;
根据所述四元组实例推荐集包含的数据关系实例提取所述自然语句的词关系模型,根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集。
根据本发明提供的一种语义搜索方法,所述语义结构模型包括实体集、语义关系集、事实集和数据关系集。
根据本发明提供的一种语义搜索方法,所述词关系模型包括:以数据集分词的数据对象集、以字段分词的数据对象集和以实例内容分词的数据对象集。
根据本发明提供的一种语义搜索方法,所述以数据集分词的数据对象集包括数据来源库、词所在数据库表名、表说明和应用程序接口服务;
所述以字段分词的数据对象集包括字段语义关键词组、词所在数据库表、字段类型、表字段名、显示字段名和映射关系;
所述以实例内容分词的数据对象集包括词所在内容的词集和词间关系。
根据本发明提供的一种语义搜索方法,所述计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集,包括:
根据基于词项量的余弦相似度公式计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度;
将所述语义结构搜索集中语义相似度计算结果大于等于推荐值的四元组实例作为所述自然语句的四元组实例推荐集。
根据本发明提供的一种语义搜索方法,所述根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集,包括:
根据所述自然语句的词关系模型对知识存在的数据集,获得所述自然语句的知识结果集,所述知识结果集包括所述自然语句的知识特征。
本发明还提供一种语义搜索装置,包括采集模块、实例构建模块、相似度推荐模块和搜索模块;
所述采集模块,用于获取自然语句;
所述实例构建模块,用于根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的三元组实例;
所述实例构建模块,还用于对所述三元组实例进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体根据语义结构模型进行数据关系索引,获得所述自然语句的四元组实例集,所述四元组包括三元组实例和数据关系实例;
所述相似度推荐模块,用于计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集;
所述搜索模块,用于根据所述四元组实例推荐集包含的数据关系实例提取所述自然语句的词关系模型,根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语义搜索方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语义搜索方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语义搜索方法的步骤。
本发明提供的语义搜索方法、装置、电子设备、存储介质及产品,通过基于数据索引的语义结构模型获取自然语言的知识结果集,实现语义单元的自动构建,从而实现大数据的数据语义融合,通过语义相似度算法引入,对用户输入的语言表达语义与构建的语义单元进行计算,对结果排序后,自动推荐语义结构模型的四元组实例,根据推荐的四元组实例获取对应词关系模型,将词关系模型转换成数据库检索关系,从大数据平台中获得所述自然语句的知识结果集,从而实现数据的发现和知识的挖掘。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语义搜索方法的流程示意图;
图2是本发明实施例提供的词关系模型的示意图;
图3是本发明实施例提供的语义搜索装置的结构示意图;
图4是本发明实施例提供的知识结果输出流程图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的语义搜索方法,该方法包括如下步骤:
步骤101、获取自然语句;
需要说明的是,所述自然语句
Figure BDA0003515044390000051
为非空领域内的任意表达。
步骤102、根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的三元组实例;
需要说明的是,所述结构映射
Figure BDA0003515044390000052
是指将所述自然语言
Figure BDA0003515044390000053
表达为语义结构模型G的形式,即对自然语言的语义结构进行解释。
步骤103、对所述三元组实例进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体根据语义结构模型进行数据关系索引,获得所述自然语句的四元组实例集,所述四元组包括三元组实例和数据关系实例;
需要说明的是,对所述三元组实例
Figure BDA0003515044390000054
进行实体映射f,获得实体o,对实体o进行数据关系索引,获得实体o的所有词关系,所述词关系满足词关系模型M,依据语义结构模型G对词关系模型M进行动态填充生成四元组实例集go
索引是对结构化数据中一列或多列的值进行排序的一种结构。数据索引针对的是从数据库中抽取数据分词后的所有词实现“单词-知识矩阵”的具体数据结构,可以使得用户通过词快速定位到知识矩阵。其建立过程“数据抽取->分词/位置关系->数据结构化存贮”。
步骤104、计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集;
需要说明的是,对
Figure BDA0003515044390000061
和go进行语义相似度计算当结果大于等于推荐值v时得到推荐语义结构R。
Figure BDA0003515044390000062
其中,
Figure BDA0003515044390000063
其中,按照
Figure BDA0003515044390000064
和go共有的三元组{实体,关系,实体}或{实体,属性,属性值},进行相似度计算,f(Q,o)是以o为核心,根据Q生成一系列查询语名进而从四元组实例库中找出相应实例集。o是用户输入的对像,Q是发现过程应用模型。
步骤105、根据所述四元组实例推荐集包含的数据关系实例提取所述自然语句的词关系模型,根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集。
需要说明的是,根据获取的语义结构模型实例依据数据关系模型S获取对应词关系模型M,依据词关系模型转换成数据库检索关系Q,依据Q从大数据平台中获得所述自然语句的知识结果集。
本发明实施例的语义搜索方法通过基于数据索引的语义结构模型获取自然语言的语义结构,并搜索出自然语言包含实体的语义结构集合,实现语义单元的自动构建,从而实现大数据的数据语义融合,通过语义相似度算法引入,对用户输入的语言表达语义与构建的语义单元进行计算,对结果排序后,自动推荐四元组实例推荐集,从而实现数据的发现和知识的挖掘。
在本发明的至少一个实施例中,所述词关系模型包括:以数据集分词的数据对象集T、以字段分词的数据对象集F和以实例内容分词的数据对象集C。如:数据库“蔬菜及特种作物播种面积”,存在分类数据集typeclass记为t1、叶菜类数据集yecha记为t2、瓜菜类数据集guacha记为t3。T={t1,t2,t3};字段模型F={f1,f2,f3};内容C表示为C2,C2={c1,c2,c3};则t2={“d”:“蔬菜及特种作物播种面积”,“n”:“yecha”,“w”:[“叶菜”,“叶菜类”],“y”:“http://www.xxx.xxx/BJArcWcfService/getDataValue.aspx”}、t2中字段集,取一个字段记为f2,f2表示示例:f2={“w”:[“菠菜”,“亩”],“t”:“t2的唯一标识”,“l”:“char”,“s”:“column1831”,“i”}、t2数据集取其中f2所描述字段内容示列,记为c2,则c2={“w”:[“…”],“r”:“f2的唯一标识”}。
需要说明的是,所述词关系满足词关系模型M,词关系模型表示为式(1):
M=[T,F,C] (1)
其中,T={t1,t2…tn},t是以数据集分词后,以词为核心的数据对象;F={f1,f2…fn},f是以字段分词后,以词为核心的数据对象;C={c1,c2…cn},c是实例内容分词后,以词为核心的数据对象。
在本发明的至少一个实施例中,所述以数据集分词的数据对象集T包括数据来源库、词所在数据库表名、表说明和应用程序接口服务;
需要说明的是,T中t定义如式(2)所示:
t=[d,n,w,y] (2)
其中,d为数据来源库,n为词所在数据库的表名,w为表说明,y为数据获取的应用程序接口服务即API服务。
所述以字段分词的数据对象集F包括字段语义关键词组、词所在数据库表、字段类型、表字段名、显示字段名和映射关系;
需要说明的是,F中f定义如式(3)所示:
f=[w,t,l,r,s,i] (3)
其中,w为字段语义关键词组,t为词所在数据库表唯一标识,l为字段类型,r为表字段名,s为显示字段名,i为映射关系,当r字段内容是外键时,用于转换为具体内容。
其中,i定义如式(4)所示:
i=[fs,ft,fw] (4)
说明:fs映射内容所在的字段名,ft映射内容所在的表,fw映射条件所在的字段名。
以实例内容分词的数据对象集C包括词所在内容的词集和词间关系。
需要说明的是,C中c定义如式(5)所示:
c=[W,f] (5)
其中,
Figure BDA0003515044390000081
wk为词所在内容的词集,r为w词间关系,f见式(3)的定义。
在本发明的至少一个实施例中,所述语义结构模型包括实体集、语义关系集、事实集和数据关系集。
需要说明的是,知识图谱的逻辑架构由模式层和数据层组成。模式层是知识图谱的核心,主要内容为知识的数据结构,数据层往往是以三元组G={E,R,F}的形式表示。
在本实施例的方法中,为传统的数据层增加了语义及数据关系构建了基于语义索引的数据融合层,能够使各数据库平台实现语义融合,搜索结果更全面、更精准,业务数据容错能力更强。基于语义索引的数据融合层以四元组G={E,R,F,K}的形式表示。数据关系K反映了数据库建设时,数据设计模型数据间的数据组织关系,通过数据关系支撑Query时实现数据查询、统计、过滤等分析。
其中,E表示实体集合{e1,e2,…,eE};R表示语义关系集合{r1,r2,…,rR},关系r是知识图谱中的边,表示不同实体间的某种联系;F表示事实集合{f1,f2,…,fF},其中,每一个事实f又被定义为一个四元组(h,r,t,s)∈f,事实的基本类型f表示为(实体,关系,实体,数据关系集)和(实体,属性,属性值,数据关系集)等;K是数据关系集{k1,k2,…,kn},其中每一个k又被定义为k={m,f’},其中m∈M,f’为Query函数用于处理关系。
在本发明的至少一个实施例中,所述根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集,包括:
根据所述自然语句的词关系模型对知识存在的数据集,获得所述自然语句的知识结果集,所述知识结果集包括所述自然语句的知识特征。
需要说明的是,基于数据索引的知识发现过程即为结构化存贮数据到知识的发现过程,此过程用Q表示,则发现过程用模型如式(6)表示为:
Q=f(S,F,W) (6)
其中,S为提取的知识特征,F为知识存在的数据集,W为条件信息
用户输入通过M模型的解析可以快速构建Q中的S、F、W要件,得到Q模型的实例q,通过f”查询获取数据,f”为数据集内容获取的映射方法,即M模型解析的过程。
数据索引能够快速实现基于主题词的信息检索,但不支持基于语义的信息检索及知识发现。因此,本发明在数据索引的基础上结合数据库构建模型构建适合检索的语义模型,为基于语义的信息检索及知识发现提供支撑。
在本发明的至少一个实施例中,所述计算所述自然语句的语义结构和所述自然语句的语义结构搜索集的语义相似度,根据语义相似度计算结果获取所述自然语句的推荐语义结构,包括:
根据基于词项量的余弦相似度公式计算所述自然语句的语义结构和所述自然语句的语义结构搜索集的语义相似度;
将所述语义结构搜索集中语义相似度计算结果大于等于推荐值的语义结构作为所述自然语句的推荐语义结构。
需要说明的是,语义相似度计算即通过算法把自然语言句子映射为某种形式化的语义表示表示。本实施例通过对数据库中的词构建n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量余弦的相似性,并结合字面相似度给出两个句子语义的可信程度,通过预设相度阀值推荐结果。
基于词项量的余弦相似度公式如式(7)表示为:
Figure BDA0003515044390000101
其中,
Figure BDA0003515044390000102
x、y为两个句子的词向量。
例如:“番茄叶子发黄怎么办?”,使用知识库中的知识,分解为:实体“番茄”,关系“发黄”,属性“叶子”及实体“叶子”,关系“怎么办”,属性“发黄”。逻辑表示为(G1∧G1)如果有满足条件的共同项Sr(数据关系集)通过计算s(s∈Sr)与输入句子的相似度,得到语义相似度达到设定阀值则输出s。
如图2所示为本实施例中词关系模型的可视化表示关系图,以“农作物”为主题词示例,通过词关系模型,分别基于T,F,C三个方向找到“农作物”;示例中“农作物”只存在于T中即只存在于表名中,从而获得t0、t1两个数据集,通过对t0、t1依据T模型定义分解,获取到基于t0、t1的词关系模型实例。在实际应用中,对于用户输入,如“北京市白菜的种植面积”,首先分词,找到对象“白菜”,而后通过词关系模型找到“白菜”所在的数据集t,通过t获取go,再分别计算go的语义相似度,获取符合条件的g,通过对g进行分解找到数据关系k,通过对k进行分解找到m,根据m构建原始查询语句,进行从原始数据库中获取知识。
通过模型在北京市农业资源平台256个专业数据库中的应用对搜索的查全率、查准率、语义准确率、语法准确率进行分析,下面给出实验结果。
以数据库中存在的知识为正样本,取数据100例,不存在的知识为负样本,同样取数据100例,分别进行输入测试;同时对语义相似度阀值v从高(1≥v≥0.9)、中(1≥v≥0.8)、低(1≥v≥0.6)三段进行调整测试;被检索到定义为查到结果;未检索到:没有查到结果;准确率指查到全部正确结果的实例数与库中所有正确结果实例数比例的累和平均值;查准率指每一例查到的正确结果数与其查到的总结果比例的累和平均值;查全率指查到全部正确结果的实例数与实例总数的比例;综合评价利用F-Score公式取查全率与查准率进行评价,权重参数取1;评价结果如下:
Figure BDA0003515044390000111
通过正例评估结果来看,相似度阀值在1≥v≥0.9,综合评价得分高,但实际使用中从语义推荐角度看相似度阀值在1≥v≥0.8区间模型查询结果更为符合用户期待,在保证获取到正确结果下,还能得于语义推荐信息。负列结果完全满足实验预期。
下面对本发明提供的语义搜索装置进行描述,下文描述的语义搜索装置与上文描述的语义搜索方法可相互对应参照。如图3所示为本发明实施例的语义搜索装置,包括采集模块301、实例构建模块302、相似度推荐模块303和搜索模块304;
所述采集模块301,用于获取自然语句;
所述实例构建模块302,用于根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的三元组实例;
所述实例构建模块302,还用于对所述三元组实例进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体根据语义结构模型进行数据关系索引,获得所述自然语句的四元组实例集,所述四元组包括三元组实例和数据关系实例;
所述相似度推荐模块303,用于计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集;
所述搜索模块304,用于根据所述四元组实例推荐集包含的数据关系实例提取所述自然语句的词关系模型,根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集。
在本发明的至少一个实施例中,所述词关系模型包括:以数据集分词的数据对象集、以字段分词的数据对象集和以实例内容分词的数据对象集。
在本发明的至少一个实施例中,所述以数据集分词的数据对象集包括数据来源库、词所在数据库表名、表说明和应用程序接口服务;
所述以字段分词的数据对象集包括字段语义关键词组、词所在数据库表、字段类型、表字段名、显示字段名和映射关系;
以实例内容分词的数据对象集包括词所在内容的词集和词间关系。
在本发明的至少一个实施例中,所述语义结构模型包括实体集、语义关系集、事实集和数据关系集。
在本发明的至少一个实施例中,所述根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集,包括:
根据所述自然语句的词关系模型对知识存在的数据集,获得所述自然语句的知识结果集,所述知识结果集包括所述自然语句的知识特征。
在本发明的至少一个实施例中,所述述相似度推荐模块303还用于根据基于词项量的余弦相似度公式计算所述自然语句的语义结构和所述自然语句的语义结构搜索集的语义相似度;
将所述语义结构搜索集中语义相似度计算结果大于等于推荐值的语义结构作为所述自然语句的推荐语义结构。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行语义搜索方法,该方法包括:
获取自然语句;
根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的语义结构;
对所述语义结构进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体进行数据关系索引,获得所述自然语句的词关系集;
根据语义结构模型对所述自然语句的词关系集进行结构映射,获得所述自然语句的语义结构搜索集;
计算所述自然语句的语义结构和所述自然语句的语义结构搜索集的语义相似度,根据语义相似度计算结果获取所述自然语句的推荐语义结构。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语义搜索方法,该方法包括:
获取自然语句;
根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的语义结构;
对所述语义结构进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体进行数据关系索引,获得所述自然语句的词关系集;
根据语义结构模型对所述自然语句的词关系集进行结构映射,获得所述自然语句的语义结构搜索集;
计算所述自然语句的语义结构和所述自然语句的语义结构搜索集的语义相似度,根据语义相似度计算结果获取所述自然语句的推荐语义结构。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语义搜索方法,该方法包括:
获取自然语句;
根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的语义结构;
对所述语义结构进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体进行数据关系索引,获得所述自然语句的词关系集;
根据语义结构模型对所述自然语句的词关系集进行结构映射,获得所述自然语句的语义结构搜索集;
计算所述自然语句的语义结构和所述自然语句的语义结构搜索集的语义相似度,根据语义相似度计算结果获取所述自然语句的推荐语义结构。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语义搜索方法,其特征在于,包括:
获取自然语句;
根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的三元组实例;
对所述三元组实例进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体根据语义结构模型进行数据关系索引,获得所述自然语句的四元组实例集,所述四元组包括三元组实例和数据关系实例;
计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集;
根据所述四元组实例推荐集包含的数据关系实例提取所述自然语句的词关系模型,根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集。
2.根据权利要求1所述的语义搜索方法,其特征在于,所述语义结构模型包括实体集、语义关系集、事实集和数据关系集。
3.根据权利要求1所述的语义搜索方法,其特征在于,所述词关系模型包括:以数据集分词的数据对象集、以字段分词的数据对象集和以实例内容分词的数据对象集。
4.根据权利要求3所述的语义搜索方法,其特征在于,所述以数据集分词的数据对象集包括数据来源库、词所在数据库表名、表说明和应用程序接口服务;
所述以字段分词的数据对象集包括字段语义关键词组、词所在数据库表、字段类型、表字段名、显示字段名和映射关系;
所述以实例内容分词的数据对象集包括词所在内容的词集和词间关系。
5.根据权利要求1至3中任一所述的语义搜索方法,其特征在于,所述计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集,包括:
根据基于词项量的余弦相似度公式计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度;
将所述语义结构搜索集中语义相似度计算结果大于等于推荐值的四元组实例作为所述自然语句的四元组实例推荐集。
6.根据权利要求1至3中任一所述的语义搜索方法,其特征在于,所述根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集,包括:
根据所述自然语句的词关系模型对知识存在的数据集,获得所述自然语句的知识结果集,所述知识结果集包括所述自然语句的知识特征。
7.一种语义搜索装置,其特征在于,包括采集模块、实例构建模块、相似度推荐模块和搜索模块;
所述采集模块,用于获取自然语句;
所述实例构建模块,用于根据语义结构模型对所述自然语句进行结构映射,获得所述自然语句的三元组实例;
所述实例构建模块,还用于对所述三元组实例进行实体映射,获得所述自然语句包含的实体,对所述自然语句包含的实体根据语义结构模型进行数据关系索引,获得所述自然语句的四元组实例集,所述四元组包括三元组实例和数据关系实例;
所述相似度推荐模块,用于计算所述自然语句的三元组实例和所述自然语句的四元组实例集的语义相似度,根据语义相似度计算结果获取所述自然语句的四元组实例推荐集;
所述搜索模块,用于根据所述四元组实例推荐集包含的数据关系实例提取所述自然语句的词关系模型,根据所述自然语句的词关系模型对数据库进行搜索,获得所述自然语句的知识结果集。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语义搜索方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语义搜索方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语义搜索方法的步骤。
CN202210161709.4A 2022-02-22 2022-02-22 语义搜索方法、装置、电子设备、存储介质及产品 Active CN114691845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210161709.4A CN114691845B (zh) 2022-02-22 2022-02-22 语义搜索方法、装置、电子设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210161709.4A CN114691845B (zh) 2022-02-22 2022-02-22 语义搜索方法、装置、电子设备、存储介质及产品

Publications (2)

Publication Number Publication Date
CN114691845A true CN114691845A (zh) 2022-07-01
CN114691845B CN114691845B (zh) 2024-10-01

Family

ID=82136967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210161709.4A Active CN114691845B (zh) 2022-02-22 2022-02-22 语义搜索方法、装置、电子设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN114691845B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860909A (zh) * 2023-09-04 2023-10-10 宁波甬恒瑶瑶智能科技有限公司 基于生化知识图谱的数据存储方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342628A1 (en) * 2015-05-21 2016-11-24 Oracle International Corporation Textual query editor for graph databases that performs semantic analysis using extracted information
CN109145085A (zh) * 2018-07-18 2019-01-04 北京市农林科学院 语义相似度的计算方法及系统
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112817569A (zh) * 2021-02-06 2021-05-18 成都飞机工业(集团)有限责任公司 一种面向分析的数据快速映射方法、设备及存储介质
WO2021107760A1 (en) * 2019-11-29 2021-06-03 Mimos Berhad System and method for dynamically processing data into a knowledge base repository
CN113420173A (zh) * 2021-06-22 2021-09-21 桂林电子科技大学 基于四元组深度学习的少数民族服饰图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342628A1 (en) * 2015-05-21 2016-11-24 Oracle International Corporation Textual query editor for graph databases that performs semantic analysis using extracted information
CN109145085A (zh) * 2018-07-18 2019-01-04 北京市农林科学院 语义相似度的计算方法及系统
WO2021107760A1 (en) * 2019-11-29 2021-06-03 Mimos Berhad System and method for dynamically processing data into a knowledge base repository
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112817569A (zh) * 2021-02-06 2021-05-18 成都飞机工业(集团)有限责任公司 一种面向分析的数据快速映射方法、设备及存储介质
CN113420173A (zh) * 2021-06-22 2021-09-21 桂林电子科技大学 基于四元组深度学习的少数民族服饰图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昀;邓颖;吴华瑞;: "面向农业科研办公的垂直搜索引擎研究与设计", 西南师范大学学报(自然科学版), no. 09, 20 September 2020 (2020-09-20) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860909A (zh) * 2023-09-04 2023-10-10 宁波甬恒瑶瑶智能科技有限公司 基于生化知识图谱的数据存储方法、系统及存储介质
CN116860909B (zh) * 2023-09-04 2023-12-22 宁波甬恒瑶瑶智能科技有限公司 基于生化知识图谱的数据存储方法、系统及存储介质

Also Published As

Publication number Publication date
CN114691845B (zh) 2024-10-01

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
US8862458B2 (en) Natural language interface
US9213771B2 (en) Question answering framework
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
CN110555153A (zh) 一种基于领域知识图谱的问答系统及其构建方法
US20160041986A1 (en) Smart Search Engine
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
US20090094262A1 (en) Automatic Generation Of Ontologies Using Word Affinities
US11816156B2 (en) Ontology index for content mapping
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US9864795B1 (en) Identifying entity attributes
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
US10678820B2 (en) System and method for computerized semantic indexing and searching
CN112100396A (zh) 一种数据处理方法和装置
CN116450772A (zh) 一种检索结果智能推荐方法、装置及统一检索方法
Stavropoulou et al. Architecting an innovative big open legal data analytics, search and retrieval platform
CN112687403B (zh) 药品词典的生成及药品搜索方法及装置
CN114691845B (zh) 语义搜索方法、装置、电子设备、存储介质及产品
CN106777140B (zh) 用于非结构化文档搜索的方法及装置
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Manguinhas et al. A geo-temporal web gazetteer integrating data from multiple sources
Fudholi et al. Code (common ontology development): A knowledge integration approach from multiple ontologies
Lehmberg Web table integration and profiling for knowledge base augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant