CN110442710B - 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 - Google Patents
一种基于知识图谱的短文本语义理解与精准匹配方法及装置 Download PDFInfo
- Publication number
- CN110442710B CN110442710B CN201910594867.7A CN201910594867A CN110442710B CN 110442710 B CN110442710 B CN 110442710B CN 201910594867 A CN201910594867 A CN 201910594867A CN 110442710 B CN110442710 B CN 110442710B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- text
- graph
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱的短文本语义理解与精准匹配方法,从用户输入的第一文本中提取第一实体,从内置知识图谱中找到第一实体对应的所有候选实体,并从中提取置信度最高的第一候选实体,再根据内置知识图谱找到第一实体对应的第一知识集合,并在知识库中找到第一候选实体对应的第二知识集合,将第一知识集合和第二知识集合输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成第一知识特征和第二知识特征,将二者联合生成多组组合特征,并将其输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将其中置信度最高的文本作为最匹配的文本,能够达到更好的语义理解效果,并且匹配过程更加精准。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于知识图谱的短文本语义理解与精准匹配方法。
背景技术
短文本语义理解与精准匹配是一种广泛用于人机对话系统的自然语言处理技术,经过对短文本进行语义理解(包括意图识别,属性槽提取)后,可以与知识库中的特定文本进行匹配,找到最想相似的预设文本集,从而得到相对应的回复、知识等数据。
但是现有的技术存在以下缺点:
(1)短文本因文本较短、缺乏上下文导致语义理解困难;
(2)短文本与知识库中的特定文本进行匹配时,缺乏知识支撑,难以达到精准匹配。
发明内容
本发明实施例的目的是提供一种基于知识图谱的短文本语义理解与精准匹配方法,通过将短文本中涉及到的知识与知识图谱关联起来,从而引入知识图谱中的知识对该短文本进行知识补充,达到更好的语义理解效果,并且使得短文本在匹配过程中更加精准。
为实现上述目的,本发明实施例提供了一种基于知识图谱的短文本语义理解与精准匹配方法,包括以下步骤:
获取用户输入的第一文本,并从所述第一文本中提取第一实体;
根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体;
根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合;
将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征;其中,知识特征包括文本的意图和文本的知识;
将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本。
进一步的,所述根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体,具体为:
根据所述第一实体,提取所述第一实体的上下文特征、字符串特征,以及内置知识图谱中的与所述第一实体相似的候选实体的知识,并作为输入特征;
将所述输入特征输入至逻辑回归二分类模型,输出置信度超过预设阈值且与所述第一实体对应的候选实体,并将置信度最高的候选实体作为第一候选实体;其中,所述逻辑回归二分类模型输出的概率值为置信度。
进一步的,所述根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合,具体为:
在所述内置知识图谱中找到与所述第一实体对应的第一知识点,并将所述第一知识点作为第一知识集合;
在知识库中找到与所述第一候选实体对应的第二知识点,并将所述第二知识点作为第二知识集合。
进一步的,所述预设阈值为0.8。
本发明实施例还提供了一种基于知识图谱的短文本语义理解与精准匹配装置,包括:文本获取模块、第一候选实体提取模块、知识集合生成模块、知识特征生成模块,以及最匹配文本生成模块;
所述文本获取模块,用于获取用户输入的第一文本,并从所述第一文本中提取第一实体;
所述第一候选实体提取模块,用于根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体;
所述知识集合生成模块,用于根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合;
所述知识特征生成模块,用于将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征;其中,知识特征包括文本的意图和文本的知识;
所述最匹配文本生成模块,用于将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本。
进一步的,所述第一候选实体提取模块包括:输入单元和输出单元;
所述输入单元,用于根据所述第一实体,提取所述第一实体的上下文特征、字符串特征,以及内置知识图谱中的与所述第一实体相似的候选实体的知识,并作为输入特征;
所述输出单元,用于将所述输入特征输入至逻辑回归二分类模型,输出置信度超过预设阈值且与所述第一实体对应的候选实体,并将置信度最高的候选实体作为第一候选实体;其中,所述逻辑回归二分类模型输出的概率值为置信度。
进一步的,所述知识集合生成模块包括:第一知识集合生成单元和第二知识集合生成单元;
所述第一知识集合生成单元,用于在所述内置知识图谱中找到与所述第一实体对应的第一知识点,并将所述第一知识点作为第一知识集合;
所述第二知识集合生成单元,用于在知识库中找到与所述第一候选实体对应的第二知识点,并将所述第二知识点作为第二知识集合。
进一步的,所述预设阈值为0.8。
作为本发明的优选实施例,本发明还提供了一种基于知识图谱的短文本语义理解与精准匹配设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的基于知识图谱的短文本语义理解与精准匹配方法。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的基于知识图谱的短文本语义理解与精准匹配方法。
与现有技术相比,具有如下有益效果:
本发明实施例提供的基于知识图谱的短文本语义理解与精准匹配方法,从用户输入的第一文本中提取第一实体,从内置知识图谱中找到第一实体对应的所有候选实体,并从中提取置信度最高的第一候选实体,再根据内置知识图谱找到第一实体对应的第一知识集合,并在知识库中找到第一候选实体对应的第二知识集合,将第一知识集合和第二知识集合输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成第一知识特征和第二知识特征,将二者联合生成多组组合特征,并将其输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将其中置信度最高的文本作为最匹配的文本,能够达到更好的语义理解效果,并且匹配过程更加精准。
附图说明
图1是本发明提供的基于知识图谱的短文本语义理解与精准匹配方法的一个实施例的流程示意图;
图2是本发明提供的基于知识图谱的短文本语义理解与精准匹配装置的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明提供的基于知识图谱的短文本语义理解与精准匹配方法的一个实施例的流程示意图;本发明实施例提供一种基于知识图谱的短文本语义理解与精准匹配方法,包括步骤S1-S5;
S1,获取用户输入的第一文本,并从所述第一文本中提取第一实体。
作为本发明的优选实施例,本发明实施例可通过两种方法来寻找实体,分别为通过人工预构建的特定领域词典来匹配短文本中所有相同的实体,和通过人工标注的命名实体识别语料训练一个LSTM+CRF的命名实体识别模型来识别实体。
S2,根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体。
在本实施例中,步骤S2具体为:根据所述第一实体,提取所述第一实体的上下文特征、字符串特征,以及内置知识图谱中的与所述第一实体相似的候选实体的知识,并作为输入特征;将所述输入特征输入至逻辑回归二分类模型,输出置信度超过预设阈值且与所述第一实体对应的候选实体,并将置信度最高的候选实体作为第一候选实体;其中,所述逻辑回归二分类模型输出的概率值为置信度。需要说明的是,所述预设阈值为0.8。
其中,所述逻辑回归二分类模型通过人工标注的实体链接语料训练而成,输出的正类则为第一实体与候选实体对应,负类则为第一实体与候选实体不对应,概率值作为置信度,试验中设置信度阈值为0.8,有且仅当候选实体的置信度高于0.8时才参与后续排序,并取置信度最高的候选实体作为第一候选实体。
S3,根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合。
其中,步骤S3具体为:在所述内置知识图谱中找到与所述第一实体对应的第一知识点,并将所述第一知识点作为第一知识集合;在知识库中找到与所述第一候选实体对应的第二知识点,并将所述第二知识点作为第二知识集合。
S4,将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征。
其中,知识特征包括文本的意图和文本的知识。
S5,将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本。
为了更好的说明本发明实施例提供的基于知识图谱的短文本语义理解与精准匹配方法的原理,以下为实现本发明的具体步骤:
首先通过人工预构建的特定领域词典来匹配短文本中所有相同的实体,或通过人工标注的命名实体识别语料训练一个LSTM+CRF的命名实体识别模型来识别实体。然后通过提取实体的文本的上下文的特征、字符串特征,以及与知识图谱中候选实体的知识的组合特征作为输入特征,通过人工标注的实体链接语料训练一个逻辑回归二分类模型,正类则为实体的文本与候选实体对应,负类则为实体的文本与候选实体不对应,概率值作为置信度,试验中设置信度阈值为0.8,有且仅当候选实体的置信度高于0.8时才参与后续排序,取置信度最高的候选实体,在得到的置信度最高的候选实体后,通过该实体的唯一标识索引即可在知识图谱中找到所涉及到的实体,通过数据库查询该实体,得到所有以RDF三元组数据格式表示的知识集合,然后将得到的知识集合作为特征,加入语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成短文本中的知识特征(包括意图识别分类,文本中的知识),其中,通过人工标注的数据训练语义理解的两个的模型,并在后续用于识别文本意图,文本涉及到的知识。再将语义理解的两个模型得到短文本中的知识特征和知识库特定文本中的知识特征,联合起来制作成组合特征;其中,联合方法为:具有相同的意图则意图特征为1,否则为0;具有相同知识则知识特征为1,否则为0。再加上传统的文本匹配特征(如文本相似度),通过人工标注的文本匹配语料,训练一个逻辑回归文本匹配模型用于判断两个文本是否为匹配,正类为匹配,负类为不匹配,归为正类的置信度即可作为匹配分数,最后输出匹配分数最高的文本。
例如知识库中存在着以下文本集合:1.小T机器人多少钱;2.2019年产的智能版的小T多少钱;3.金色的标配版本的智能机器人多少钱;4.高级版本小T家居机器人价格是多少。
知识图谱中存在在以下实体:小T智能机器人(高级版本,2019年产);小T智能机器人(标准版本,2018年产);小T家居机器人(高级版本,2019年产);小T家居机器人(标准版本,2018年产)。
当用户输入一个文本“你们这个高级版本智能机器人价格是多少?”需要匹配到以上的问题来找到对应的回答。
首先从输入文本中找到“智能机器人”这个实体,对应的内置知识图谱中的“小T智能机器人(高级版本)”。
同时也可以从知识库的4个文本中分别提及对应的内置知识图谱的置信度最高的候选实体:1.“小T机器人”->小T智能机器人(标准版本);2.“小T”->小T智能机器人(高级版本);3.“智能机器人”->小T智能机器人(标准版本);4.“小T家居机器人”->小T家居机器人。
然后通过知识图谱和输入文本对应的候选实体找到对应的知识集合为“高级版本,2019年产”,通过知识图谱和知识库中的文本对应的候选实体找到对应的知识集合为1.标准版本,2018年产;2.高级版本,2019年产;3.标准版本,2018年产;4.高级版本,2019年产。
再通过引入对应的知识特征,通过语义理解的两个模型,得到输入文本的文本意图为“询问价格”,知识为“高级版本,2019年产”,其中,知识库中的文本意图和知识为:1.文本意图:询问价格,知识:标准版本,2018年产;2.文本意图:询问价格,知识:高级版本,2019年产;3.文本意图:询问价格,知识:标准版本,2018年产,金色;4.文本意图:询问价格,知识:高级版本,2019年产。
最后通过上述的知识,可以得到输入文本与知识库中的文本的联合特征和文本相似度特征为:
1.F(意图相同)=1,F(知识相同数量)=0,F(相似度)=0.2;
2.F(意图相同)=1,F(知识相同数量)=2,F(相似度)=0.5;
3.F(意图相同)=1,F(知识相同数量)=0,F(相似度)=0.6;
4.F(意图相同)=1,F(知识相同数量)=2,F(相似度)=0.4。
将特征以及其他特征,如知识库实体匹配特征,词向量匹配特征等,输入逻辑回归文本匹配模型,得到文本2的置信度最高,即“2019年产的智能版的小T多少钱”与输入文本“你们这个高级版本智能机器人价格是多少?”最匹配。
本发明实施例提供的基于知识图谱的短文本语义理解与精准匹配方法,从用户输入的第一文本中提取第一实体,从内置知识图谱中找到第一实体对应的所有候选实体,并从中提取置信度最高的第一候选实体,再根据内置知识图谱找到第一实体对应的第一知识集合,并在知识库中找到第一候选实体对应的第二知识集合,将第一知识集合和第二知识集合输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成第一知识特征和第二知识特征,将二者联合生成多组组合特征,并将其输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将其中置信度最高的文本作为最匹配的文本,本发明提供的实施例结合了知识图谱中的知识,从而为短文本的语义理解和精准匹配提供了外部世界的知识,可以减少语义理解误差以及提高匹配精准度,能够达到更好的语义理解效果。
作为本发明提供的优选实施例,请参见图2,图2是本发明提供的基于知识图谱的短文本语义理解与精准匹配装置的一个实施例的结构示意图,包括:文本获取模块、第一候选实体提取模块、知识集合生成模块、知识特征生成模块,以及最匹配文本生成模块;
所述文本获取模块,用于获取用户输入的第一文本,并从所述第一文本中提取第一实体;所述第一候选实体提取模块,用于根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体;所述知识集合生成模块,用于根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合;所述知识特征生成模块,用于将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征;其中,知识特征包括文本的意图和文本的知识;所述最匹配文本生成模块,用于将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本。
在本实施例中,所述第一候选实体提取模块包括:输入单元和输出单元;
所述输入单元,用于根据所述第一实体,提取所述第一实体的上下文特征、字符串特征,以及内置知识图谱中的与所述第一实体相似的候选实体的知识,并作为输入特征;所述输出单元,用于将所述输入特征输入至逻辑回归二分类模型,输出置信度超过预设阈值且与所述第一实体对应的候选实体,并将置信度最高的候选实体作为第一候选实体;其中,所述逻辑回归二分类模型输出的概率值为置信度。其中,所述预设阈值为0.8。
优选的,所述知识集合生成模块包括:第一知识集合生成单元和第二知识集合生成单元;
所述第一知识集合生成单元,用于在所述内置知识图谱中找到与所述第一实体对应的第一知识点,并将所述第一知识点作为第一知识集合;所述第二知识集合生成单元,用于在知识库中找到与所述第一候选实体对应的第二知识点,并将所述第二知识点作为第二知识集合。
由上可见,本发明实施例提供的一种基于知识图谱的短文本语义理解与精准匹配装置,通过文本获取模块获取用户输入的第一文本,并从所述第一文本中提取第一实体,第一候选实体提取模块根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体,知识集合生成模块根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合,知识特征生成模块将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征,最后通过最匹配文本生成模块,用于将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本,本发明提供的实施例结合了知识图谱中的知识,从而为短文本的语义理解和精准匹配提供了外部世界的知识,可以减少语义理解误差以及提高匹配精准度,能够达到更好的语义理解效果。
本发明实施例还提供了一种基于知识图谱的短文本语义理解与精准匹配设备。该设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个基于知识图谱的短文本语义理解与精准匹配方法实施例中的步骤,例如图1所示的步骤S1至S5。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于知识图谱的短文本语义理解与精准匹配设备的控制中心,利用各种接口和线路连接整个基于知识图谱的短文本语义理解与精准匹配设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于知识图谱的短文本语义理解与精准匹配设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于知识图谱的短文本语义理解与精准匹配设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于知识图谱的短文本语义理解与精准匹配方法,其特征在于,包括以下步骤:
获取用户输入的第一文本,并从所述第一文本中提取第一实体;
根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体;
根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合;
将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征;其中,知识特征包括文本的意图和文本的知识;
将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本。
2.如权利要求1所述的基于知识图谱的短文本语义理解与精准匹配方法,其特征在于,所述根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体,具体为:
根据所述第一实体,提取所述第一实体的上下文特征、字符串特征,以及内置知识图谱中的与所述第一实体相似的候选实体的知识,并作为输入特征;
将所述输入特征输入至逻辑回归二分类模型,输出置信度超过预设阈值且与所述第一实体对应的候选实体,并将置信度最高的候选实体作为第一候选实体;其中,所述逻辑回归二分类模型输出的概率值为置信度。
3.如权利要求2所述的基于知识图谱的短文本语义理解与精准匹配方法,其特征在于,所述根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合,具体为:
在所述内置知识图谱中找到与所述第一实体对应的第一知识点,并将所述第一知识点作为第一知识集合;
在知识库中找到与所述第一候选实体对应的第二知识点,并将所述第二知识点作为第二知识集合。
4.如权利要求3所述的基于知识图谱的短文本语义理解与精准匹配方法,其特征在于,所述预设阈值为0.8。
5.一种基于知识图谱的短文本语义理解与精准匹配装置,其特征在于,包括:文本获取模块、第一候选实体提取模块、知识集合生成模块、知识特征生成模块,以及最匹配文本生成模块;
所述文本获取模块,用于获取用户输入的第一文本,并从所述第一文本中提取第一实体;
所述第一候选实体提取模块,用于根据所述第一实体,从内置知识图谱中找到所述第一实体对应的所有候选实体,并从所述所有候选实体中提取置信度最高的第一候选实体;
所述知识集合生成模块,用于根据所述内置知识图谱和所述第一实体,找到所述第一实体对应的第一知识集合,并在知识库中找到所述第一候选实体对应的第二知识集合;
所述知识特征生成模块,用于将所述第一知识集合和所述第二知识集合,输入至语义理解的LSTM意图识别分类模型和LSTM+CRF知识序列标注模型中,生成所述第一实体对应的第一知识特征,和第一候选实体对应的第二知识特征;其中,知识特征包括文本的意图和文本的知识;
所述最匹配文本生成模块,用于将所述第一知识特征联合所述第二知识特征,生成多组组合特征,并将所述多组组合特征输入至逻辑回归文本匹配模型进行匹配判断,生成所有相匹配的组合特征对应的文本,将所述所有相匹配的组合特征对应的文本中置信度最高的文本作为最匹配的文本。
6.如权利要求5所述基于知识图谱的短文本语义理解与精准匹配装置,其特征在于,所述第一候选实体提取模块包括:输入单元和输出单元;
所述输入单元,用于根据所述第一实体,提取所述第一实体的上下文特征、字符串特征,以及内置知识图谱中的与所述第一实体相似的候选实体的知识,并作为输入特征;
所述输出单元,用于将所述输入特征输入至逻辑回归二分类模型,输出置信度超过预设阈值且与所述第一实体对应的候选实体,并将置信度最高的候选实体作为第一候选实体;其中,所述逻辑回归二分类模型输出的概率值为置信度。
7.如权利要求6所述基于知识图谱的短文本语义理解与精准匹配装置,其特征在于,所述知识集合生成模块包括:第一知识集合生成单元和第二知识集合生成单元;
所述第一知识集合生成单元,用于在所述内置知识图谱中找到与所述第一实体对应的第一知识点,并将所述第一知识点作为第一知识集合;
所述第二知识集合生成单元,用于在知识库中找到与所述第一候选实体对应的第二知识点,并将所述第二知识点作为第二知识集合。
8.如权利要求7所述基于知识图谱的短文本语义理解与精准匹配装置,其特征在于,所述预设阈值为0.8。
9.一种基于知识图谱的短文本语义理解与精准匹配设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的基于知识图谱的短文本语义理解与精准匹配方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的基于知识图谱的短文本语义理解与精准匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910594867.7A CN110442710B (zh) | 2019-07-03 | 2019-07-03 | 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910594867.7A CN110442710B (zh) | 2019-07-03 | 2019-07-03 | 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442710A CN110442710A (zh) | 2019-11-12 |
CN110442710B true CN110442710B (zh) | 2021-09-17 |
Family
ID=68428493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910594867.7A Active CN110442710B (zh) | 2019-07-03 | 2019-07-03 | 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442710B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259624B (zh) * | 2020-01-15 | 2023-03-31 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111625655B (zh) * | 2020-05-12 | 2023-07-21 | 埃睿迪信息技术(北京)有限公司 | 基于知识图谱的归并以及分类方法、装置以及存储介质 |
CN111967262B (zh) * | 2020-06-30 | 2024-01-12 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN111797245B (zh) * | 2020-07-27 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 基于知识图谱模型的信息匹配方法及相关装置 |
CN112015921B (zh) * | 2020-09-15 | 2024-04-16 | 重庆广播电视大学重庆工商职业学院 | 一种基于学习辅助知识图谱的自然语言处理方法 |
CN112418088B (zh) * | 2020-11-23 | 2022-04-29 | 华中师范大学 | 一种基于众智的视频学习资源提取及知识标注方法及系统 |
CN112700768B (zh) * | 2020-12-16 | 2024-04-26 | 科大讯飞股份有限公司 | 语音识别方法以及电子设备、存储装置 |
CN113051374B (zh) * | 2021-06-02 | 2021-08-31 | 北京沃丰时代数据科技有限公司 | 一种文本匹配优化方法及装置 |
CN113535950B (zh) * | 2021-06-15 | 2022-09-27 | 杭州电子科技大学 | 一种基于知识图谱和胶囊网络的小样本意图识别方法 |
CN113361283B (zh) * | 2021-06-28 | 2024-09-24 | 东南大学 | 面向Web表格的成对实体联合消歧方法 |
CN113688269B (zh) * | 2021-07-21 | 2023-05-02 | 北京三快在线科技有限公司 | 图文匹配结果确定方法、装置、电子设备及可读存储介质 |
CN114513404B (zh) * | 2021-12-30 | 2023-11-03 | 网络通信与安全紫金山实验室 | 时间敏感网络的配置方法、装置及计算机可读存储介质 |
CN115662534B (zh) * | 2022-12-14 | 2023-04-21 | 药融云数字科技(成都)有限公司 | 基于图谱的化学结构确定方法、系统、存储介质及终端 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024375A1 (en) * | 2015-07-26 | 2017-01-26 | Microsoft Technology Licensing, Llc | Personal knowledge graph population from declarative user utterances |
US10248689B2 (en) * | 2015-10-13 | 2019-04-02 | International Business Machines Corporation | Supplementing candidate answers |
CN106250393B (zh) * | 2016-07-13 | 2017-08-25 | 广州安望信息科技有限公司 | 一种基于知识图谱的短文本理解方法及装置 |
CN107748757B (zh) * | 2017-09-21 | 2021-05-07 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN109933785B (zh) * | 2019-02-03 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN109885660B (zh) * | 2019-02-22 | 2020-10-02 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN109918489B (zh) * | 2019-02-28 | 2021-02-02 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
-
2019
- 2019-07-03 CN CN201910594867.7A patent/CN110442710B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110442710A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442710B (zh) | 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 | |
CN111625635B (zh) | 问答处理方法、装置、设备及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
WO2019084810A1 (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
EP3620994A1 (en) | Methods, apparatuses, devices, and computer-readable storage media for determining category of entity | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110162675B (zh) | 应答语句的生成方法、装置、计算机可读介质及电子设备 | |
CN109933772B (zh) | 语义分析方法及终端设备 | |
US20220358297A1 (en) | Method for human-machine dialogue, computing device and computer-readable storage medium | |
GB2581705A (en) | Abstraction and portablity to intent recognition | |
CN111046674A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN110795544A (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN112686051A (zh) | 语义识别模型训练方法、识别方法、电子设备、存储介质 | |
CN117951249A (zh) | 基于大语言模型的知识库应答方法及系统 | |
CN111401034B (zh) | 文本的语义分析方法、语义分析装置及终端 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN115345177A (zh) | 意图识别模型训练方法和对话方法及装置 | |
CN116701636A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN111611793B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN109344388B (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |