CN106776564A - 一种基于知识图谱的语义识别方法及系统 - Google Patents

一种基于知识图谱的语义识别方法及系统 Download PDF

Info

Publication number
CN106776564A
CN106776564A CN201611192705.3A CN201611192705A CN106776564A CN 106776564 A CN106776564 A CN 106776564A CN 201611192705 A CN201611192705 A CN 201611192705A CN 106776564 A CN106776564 A CN 106776564A
Authority
CN
China
Prior art keywords
unit
semantic
group
object element
element group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611192705.3A
Other languages
English (en)
Other versions
CN106776564B (zh
Inventor
张永成
尹弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201611192705.3A priority Critical patent/CN106776564B/zh
Publication of CN106776564A publication Critical patent/CN106776564A/zh
Application granted granted Critical
Publication of CN106776564B publication Critical patent/CN106776564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的语义识别方法及系统,该方法包括:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层;接收输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元及与每个字单元关联的表示单元;确定与每个表示单元关联的语义单元,根据每个语义单元与输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联选取出选定语义单元;确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与输入信息对应的意图。由此,可以对全部自然语言进行语义识别。

Description

一种基于知识图谱的语义识别方法及系统
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于知识图谱的语义识别方法及系统。
背景技术
在自然语言处理中,语义识别是核心问题,只有完成该项工作,才能有效的识别自然语言输入中的信息,让计算机真正理解文本。简单来说,通过这项工作的实现,计算机可以理解用户通过自然语言形式输入的信息,获取用户输入的数据。
现有技术用于实现语义识别的技术方案一般基于机器学习,具体来说,将整个语义识别过程分为多个步骤,包括分词、词性标注、依存分析、命名实体识别及关键词抽取等,而上述步骤均需使用机器学习的方法,基于标注的上述资料训练对应的语义识别模型,进而将用户输入的信息作为该语义识别模型的输入,即可得到该语义识别模型输出的与用户输入信息对应的语义识别结果。但是发明人发现,由于语义识别模型与用于训练该模型的资料关联,即其仅仅能够识别出与训练该模型的资料对应的自然语言的语义,因此,对于其他自然语言而无法实现其语义识别。
综上所述,现有技术中用于实现语义识别的技术方案存在无法支持与语义识别模型无关联的自然语言的语义识别的问题。
发明内容
本发明的目的是提供一种基于知识图谱的语义识别方法及系统,以解决现有技术中用于实现语义识别的技术方案存在的无法支持与语义识别模型无关联的自然语言的语义识别的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于知识图谱的语义识别方法,包括:
预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;
接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;
确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;
确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。
优选的,确定与每个语音单元关联的字单元之后及确定与每个字单元关联的表示单元之后,还包括:
将包含第一单元大于对应阈值,但只关联到一个输入信息对应第一单元的第二单元去除,并将关联到的输入信息对应第一单元数量与包含的第一单元数量的比值低于对应阈值的第二单元去除;
其中,第二单元为字单元时,第一单元为语音单元;第二单元为表示单元时,第一单元为字单元。
优选的,选取出所述选定语义单元,包括:
将所述语义单元放入候选集合中,将每个表示单元及对应的语义单元组成与每个表示单元对应的单元组,基于每个单元组的最大前驱置信度及最大后继置信度计算该单元组的语义置信度;
由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元;
确定该选定语义单元在所述输入信息中对应的表示单元,并将所述候选集合中与该表示单元对应的其他语义单元及与该表示单元在所述输入信息中的位置冲突的表示单元及对应语义单元去除;返回执行由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元的步骤,直至所述候选集合中不存在语义单元为止。
优选的,计算每个单元组的语义置信度,包括:
确定当前待计算的单元组为目标单元组,并获取所述目标单元组的全部直接前驱组、直接后继组、每个直接前驱组的最大前驱置信度及每个直接后继组的最大后继置信度;
基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接前驱组的最大前驱置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接前驱组的前驱置信度,并从中选取最大的前驱置信度为该目标单元组的最大前驱置信度;
基于所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接后继组的最大后继置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接后继组的后继置信度,并从中选取最大的后继置信度为该目标单元组的最大后继置信度;
基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的字单元数量、最大前驱置信度、最大后继置信度及该单元组与所述输入信息的关联度计算该单元组的语义置信度。
优选的,计算所述目标单元组对应于任一直接前驱组的前驱置信度,包括:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pre.rate表示任一直接前驱组的最大前驱置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。
优选的,计算所述目标单元组对应于任一直接后继组的后继置信度,包括:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,posSteps表示所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pos.rate表示任一直接后继组的最大后继置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。
优选的,计算所述目标单元组的语义置信度,包括:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组的语义置信度:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组的语义置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,posSteps表示所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pre.rate表示所述目标单元组的最大前驱置信度,pos.rate表示所述目标单元组的最大后继置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。
优选的,计算所述目标单元组与所述输入信息的关联度,包括:
按照下列公式计算所述目标单元组与所述输入信息的关联度:
其中,RELATIONRATE表示预先设定的系数,S表示所述输入信息对应的全部语义单元的集合,s表示该集合中的任一个语义单元,c表示所述目标单元组对应的语义单元,dc→s表示语义单元c到语义单元s的语义距离。
优选的,确定任两个单元组之间是否存在语义关联,包括:
确定任两个单元组分别对应的语义单元,并以其中一个语义单元为检索值在预先设置的检索集中进行检索,如果得到的结果包括另一个语义单元,则确定这两个单元组之间存在语义关联,否则,则确定这两个单元组之间不存在语义关联;
对应的,预先设置所述检索集,包括:
对于任一语义单元A,查找与该语义单元A的语义距离小于对应阈值的语义单元B,并将语义单元A与语义单元B之间的语义距离及语义单元B加入检索集中;
查找与语义单元B的语义距离小于对应阈值的语义单元C,并以语义单元A为检索值在检索集中进行检索,如果得到的结果包括语义单元C且语义单元A到语义单元C的语义距离大于语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和,则利用语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和替代语义单元A到语义单元C的语义距离。
优选的,计算任两个语义单元之间的语义距离,包括:
确定待计算的两个语义单元分别为语义A及语义B,获取语义A到语义B的每个父语义的全部第一路径,基于预设原则计算每条第一路径的长度,并从中选取出长度最短的第一路径长度,获取语义A到语义B包含的每个义元及每个义元的父义元的全部第二路径,基于预设原则计算每条第二路径的长度,并从中选取出长度最短的第二路径长度,确定第一路径长度及第二路径长度中最短的路径长度为语义A到语义B的语义距离;所述预设原则为所述语义单元包括语义及义元,且语义到对应义元、义元到对应语义、子语义到对应父语义及子义元到对应父义元的距离值均为0,父语义到对应子语义及父义元到对应子义元的距离值均为∞,其他语义单元之间的距离值均为1。
优选的,选取出选定语义单元之后,还包括:
将所述选定语义单元按照对应表示单元在所述输入信息中的位置进行排列,如果存在连续多个语义单元均和一个或多个其他的语义单元具有语义关联,则利用该一个或多个其他的语义单元替代对应的连续多个语义单元。
优选的,将所述选定语义单元按照对应表示单元在所述输入信息中的位置进行排列之后,还包括:
将进行排列之后的选定语义单元替换为对应的表示单元,得到对所述输入信息的分词结果。
优选的,选取出选定意图单元,包括:
对于任一意图单元,将每个与该意图单元关联的语义单元对该意图单元的语义置信度的值相加,得到该意图单元的文本置信度;
确定所述文本置信度大于对应阈值的意图单元为选定意图单元。
优选的,选取出选定意图单元之后,还包括:
对于所述语义单元中具有否定义元的语义,确定与该语义对应表示单元在所述输入信息中位置最近的具有动词词性的表示单元或者具有由连词连接的多个动词词性的表示单元为特定表示单元,确定与所述特定表示单元对应的选定意图单元,并将该选定意图单元确定为否定意图单元,将所述选定意图单元中与所述否定意图单元相同的选定意图单元去除。
一种基于知识图谱的语义识别系统,包括:
图谱构建模块,用于预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;
转换模块,用于接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;
第一选取模块,用于确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;
第二选取模块,用于确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。
本发明提供的一种基于知识图谱的语义识别方法及系统,该方法包括:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。本申请公开的上述技术方案中,预先构建知识图谱,该知识图谱由语音识别中能够识别的基本元素至意图对应的各层,即语音层至意图层,由此,在对用户输入的输入信息进行语义识别时,先获取与输入信息对应的语音单元,进而逐步获取与语音单元对应的字单元、表示单元、语义单元及意图单元,并基于输入信息的上下文对语义单元及意图单元进行筛选,从而得出最终与输入信息对应的意图单元,确定输入信息的意图。与现有技术相比,本申请公开的上述技术方案无需训练语义识别模型,而是利用上述知识图谱实现语义识别功能,而上述知识图谱与现有的语义识别模型最大的区别就在于其每层中包含的单元是可以与全部自然语言对应的,因此,可以对全部自然语言进行语义识别,具有通用性,从而解决了现有技术中无法支持与语义识别模型无关联的自然语言的语义识别的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于知识图谱的语义识别方法的流程图;
图2为本发明实施例提供的一种基于知识图谱的语义识别方法中知识图谱的示意图;
图3为本发明实施例提供的一种基于知识图谱的语义识别方法中知识图谱中各层各单元之间的连接关系示意图;
图4为本发明实施例提供的一种基于知识图谱的语义识别方法中语义层中语义关联示意图;
图5为本发明实施例提供的一种基于知识图谱的语义识别方法中选取选定语义单元的流程图;
图6为本发明实施例提供的一种基于知识图谱的语义识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于知识图谱的语义识别方法的流程图,可以包括以下步骤:
S11:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元。
需要说明的是,预先构建知识图谱的步骤只需执行一次即可,即只要存在构建好的知识图谱,即可利用该知识图谱进行语义识别;在使用过程中,也可以对构建好的知识图谱进行维护,添加、删除或修改知识图谱中的单元和单元之间的边。当然,如果有特殊需要也可以执行多次,均在本发明的保护范围之内。知识图谱可以分为语音层、字层、表示层、语义层及意图层,每层均具有对应的单元,其中,语音层内的语音单元表示语音识别中能够识别的基本元素,包括但不限于拼音、音标等;字层的字单元包括但不限于汉字、类似汉字的标识符及各类字母等;表示层内存储的为具有语义的表示,对应的表示单元包括但不限于中文的词、英文的词、词组、缩写及简单表示等,其中简单表示是指由字层中的元素组成,具有一个或者多个语义,但是不属于词、单词、缩写及词组的所有表示层单元,如Note7、R9、iphone 7等;语义层存储的是表示单元对应的某种语义单元,包括但不限于语义和义元,其中义元是不可分割的语义单元,语义由一个或多个义元组成;意图层存储的意图单元为对应文本所代表的意图及对应的计算机系统的某种操作等,如文本为“关闭计算机”,则其对应的意图则为关闭计算机的操作。而在将知识图谱放入存储系统中时,可以以图的形式存储,也可以以表格的形式(key-value)、关系数据库的形式或矩阵的方式存储,当然也可以根据实际需要进行其他设置,均在本发明的保护范围之内。
另外,当知识图谱中包含上述所列举的示例时,知识图谱的示意图如图2所示,而各层的各单元之间的连接关系如图3所示;另外,语义单元中的语义包含“直接表示语义”和“无直接表示语义”,“直接表示语义”和表示层中的表示单元之间存在直接的关联,而“无直接表示语义”和表示层中的表示单元之间不存在直接的关联,它的表示单元是由一个或者多个“直接表示语义”的表示单元组合而成,并且存在多种变化的组合。在语义层中,每一个语义包括一个或者多个义元,如果一个语义只包括一个义元,则可以将这个语义和义元合并,且在语义层中,语义和表示单元间有关联,但是和意图单元之间没有关联,义元和意图单元之间存在关联,但是和表示单元间没有关联。需要说明的是,在语义层中存在如图4所示的语义关联,其中,如果一个概念A是另一个概念B的部分个体的更详细概念,则称概念A是概念B的下义概念(或者说概念A是概念B的子概念),概念B是概念A的上义概念(或者说概念B是概念A的父概念),对应的,语义可以具有对应的子语义及父语义,义元也可以具有对应的子义元及父义元;当然,在语义层内也可以存在一些其它关联,这些关联既可以是其它定义的类型,也可以没有特定类型,即可以为两个语义节点之间设置一个关联。
S12:接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元。
其中,用户输入的输入信息可以是用户以语音形式或者拼音形式输入的信息,将用户输入的信息转换为语音单元,可以是转换为上例中的拼音(对应汉字)或者音标(对应各类语言),将每个语音单元关联的字单元取出,进而将每个字单元关联的表示单元取出,当转换的语音单元包括拼音、音标时,对应的字单元可以包括与拼音对应的汉字及与音标对应的标识符及各类字母等,进一步对应的表示单元可以包括与汉字对应的中文的词、词组及与标识符及各类字母对应的英文词、词组、缩写等。而语音单元与字单元之间的关联关系及字单元与表示单元之间的关联关系均可以是预先设定的。
S13:确定与每个表示单元关联的语义单元,并根据每个语义单元与输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由语义单元中选取出选定语义单元。
其中,表示单元与语义单元之间的关联关系可以预先设定。基于表示单元可以确定出表示单元在输入信息中的位置及位于其位置之前的前驱组和位于其位置之后的后继组,基于语义单元与前驱组及后继组之间的关联由对应的全部语义单元中选取出选定语义单元,即根据文本上下文选定出与文本上下文的表达一致的语义单元,从而避免其他语义单元对语义识别造成的不良影响。
S14:确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与输入信息对应的意图。
其中,语义单元与意图单元之间的关联关系可以预先设定。由于选定语义单元为与输入信息上下文表达一致的语义单元,因此,基于选定语义单元实现对对应选定意图单元的选取,能够顺利实现对于输入信息意图的确定。
本申请公开的上述技术方案中,预先构建知识图谱,该知识图谱由语音识别中能够识别的基本元素至意图对应的各层,即语音层至意图层,由此,在对用户输入的输入信息进行语义识别时,先获取与输入信息对应的语音单元,进而逐步获取与语音单元对应的字单元、表示单元、语义单元及意图单元,并基于输入信息的上下文对语义单元及意图单元进行筛选,从而得出最终与输入信息对应的意图单元,确定输入信息的意图。与现有技术相比,本申请公开的上述技术方案无需训练语义识别模型,而是利用上述知识图谱实现语义识别功能,而上述知识图谱与现有的语义识别模型最大的区别就在于其每层中包含的单元是可以与全部自然语言对应的,因此,可以对全部自然语言进行语义识别,具有通用性,从而解决了现有技术中无法支持与语义识别模型无关联的自然语言的语义识别的问题。
本发明实施例提供的一种基于知识图谱的语义识别方法,确定与每个语音单元关联的字单元之后及确定与每个字单元关联的表示单元之后,还可以包括:
将包含第一单元大于对应阈值,但只关联到一个输入信息对应第一单元的第二单元去除,并将关联到的输入信息对应第一单元数量与包含的第一单元数量的比值低于对应阈值的第二单元去除;
其中,第二单元为字单元时,第一单元为语音单元;第二单元为表示单元时,第一单元为字单元。
依然以上文中每层包含的单元示例为例进行说明,当第二单元为字单元时,第一单元为语音单元时,对于包含拼音对应字母数量大于对应阀值,但是只关联到一个拼音对应字母的汉字,直接去除;对于关联到的拼音对应字母数量和包含的拼音对应字母数量的比值低于对应阀值的汉字,直接去除;对于包含音标数量大于对应阀值,但是只关联到一个音标的标识符及各类字母等,直接去除,对于关联到的音标数量和包含的音标数量的比值低于对应阀值的标识符及各类字母等,直接去除。当第二单元为表示单元时,第一单元为字单元时,如果组成词、词组或缩写的汉字、标识符或各类字母等的数量大于对应阀值,而只关联到一个汉字、标识符或各类字母等,则删除该词、词组或缩写;如果一个词、词组或缩写关联到的汉字、标识符或各类字母等的数量与组成这个词、词组或缩写的汉字、标识符或各类字母数量的比值小于对应阈值,则删除这个词、词组或缩写。该实施例中涉及的各项阈值均可以根据所针对的不同单元、所针对的同一单元的不同具体含义以及实际需要进行人工设定或者使用其他算法自动计算设定,在此不做限定。其中,同一单元的不同具体含义即为该单元所能包含的具体含义,如表示单元可以包括词、词组及缩写等具体含义。可知的是,上述条件是针对不同单元之间的匹配程度设定的,即符合上述条件的第二单元为与对应第一单元的匹配程度较高的,因此,将不符合上述条件的第二单元去除,能够使得保留的第二单元与第一单元匹配程度较高,进一步来说,能够使得保留的第二单元与输入信息匹配程度较高,从而保证了本发明提供的语义识别方案的效率及准确性。
本发明实施例提供的一种基于知识图谱的语义识别方法,选取出选定语义单元的步骤,如图5所示,可以包括:
S131:将语义单元放入候选集合中,将每个表示单元及对应的语义单元组成与每个表示单元对应的单元组,基于每个单元组的最大前驱置信度及最大后继置信度计算该单元组的语义置信度。
其中,具体来说,单元组的形式为表示单元-语义单元组,由于语义单元中的语义是由义元组成的,因此,此处单元组中的语义单元可以只包括语义单元中的语义,即单元组可以表示为表示单元-语义组,当然也可以根据实际需要进行其他设定,均在本发明的保护范围之内。而表示单元-语义单元组可以包括表示单元、对应的全部语义单元以及对应的字单元的顺序集合等。另外,语义置信度是指在一段文本中的一个字符串被认为具有某种语义的可信程度,通过对语义置信度的计算,可以确定出单元组中每个语义单元对应的可信程度。
S132:由候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元。
S133:确定该选定语义单元在输入信息中对应的表示单元,并将候选集合中与该表示单元对应的其他语义单元及与该表示单元在输入信息中的位置冲突的表示单元及对应语义单元去除;返回执行由候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元的步骤,直至候选集合中不存在语义单元为止。
其中,可以将选定语义单元放置到对应的选定语义集合中,选取出语义置信度最大的语义单元之后,可以将选定语义单元在输入信息中对应的表示单元对应的其他语义单元及与选定语义单元对应表示单元在输入信息中的位置冲突的表示单元及其对应候选集合中的语义单元均去除,然后返回执行步骤S132,从而通过循环步骤的实现,确定出选定语义集合。其中,表示单元在输入信息中的位置可以包括其开始位置、终止位置及长度等的组合,而互相冲突的表示单元即其在输入信息中的位置有一部分或者全部重合。通过上述步骤,选取出语义置信度大的语义单元作为选定语义单元,并通过将与该选定语义单元对应输入信息中的表示单元位置冲突的表示单元对应候选集合中的语义单元去除,实现了对于语义单元的筛选,保证了本申请的语义识别方案的准确性。
另外,还可以将单元组及其全部前驱组及后继组建立关联,将这些关联以图、表等形式存储于图数据库、关系数据库、k-v数据库或者内存中,其中,上述关联可以包括单元组与其前驱组或者后继组对应语义单元之间的语义距离等关联表示。
本发明实施例提供的一种基于知识图谱的语义识别方法,计算每个单元组的语义置信度,可以包括:
确定当前待计算的单元组为目标单元组,并获取目标单元组的全部直接前驱组、直接后继组、每个直接前驱组的最大前驱置信度及每个直接后继组的最大后继置信度;
基于目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接前驱组的最大前驱置信度及该目标单元组与输入信息的关联度计算目标单元组对应于每个直接前驱组的前驱置信度,并从中选取最大的前驱置信度为该目标单元组的最大前驱置信度;
基于目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接后继组的最大后继置信度及该目标单元组与输入信息的关联度计算目标单元组对应于每个直接后继组的后继置信度,并从中选取最大的后继置信度为该目标单元组的最大后继置信度;
基于目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的字单元数量、最大前驱置信度、最大后继置信度及该单元组与输入信息的关联度计算该单元组的语义置信度。
具体来说,对于上述步骤的实现,可以包括:
计算目标单元组对应于任一直接前驱组的前驱置信度,包括:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,step.length表示目标单元组对应的字单元数量(根据设定可以计入或者不计入空格),pre.rate表示任一直接前驱组的最大前驱置信度,sessionRelationRate表示目标单元组与输入信息的关联度。
计算目标单元组对应于任一直接后继组的后继置信度,包括:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,posSteps表示目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示目标单元组对应的字单元数量(根据设定可以计入或者不计入空格),pos.rate表示任一直接后继组的最大后继置信度,sessionRelationRate表示目标单元组与输入信息的关联度。
需要说明的是,计算目标单元组的最大前驱置信度时,如果其前驱组与该目标单元组没有语义关联,或者该目标单元组不存在前驱组,则该目标单元组的最大前驱置信度为0;判断目标单元组之前且与之邻近的前驱组是否为结构组词,如果否,则确定该前驱组为目标单元组的直接前驱组,如果是,则跳过该结构组词,判断该结构组词之前且与之邻近的前驱组是否为结构组词,以此类推,直至确定出一个不为结构组词的前驱组为目标单元组的直接前驱组,或者确定出不存在不为结构组词的前驱组,此时判定目标单元组不存在前驱组。计算目标单元组的最大后继置信度时,如果其后继组与该目标单元组没有语义关联,或者该目标单元组不存在后继组,则该目标单元组的最大后继置信度为0;判断目标单元组之后且与之邻近的后继组是否为结构组词,如果否,则确定该后继组为目标单元组的直接后继组,如果是,则跳过该结构组词,判断该结构组词之后且与之邻近的后继组是否为结构组词,以此类推,直至确定出一个不为结构组词的后继组为目标单元组的直接后继组,或者确定出不存在不为结构组词的后继组,此时判定目标单元组不存在后继组。另外需要说明的是,在目标单元组具有直接前驱组的前提下按照上述公式计算其最大前驱置信度,在目标单元组具有直接后继组的前提下按照上述公式计算其最大后继置信度。
计算目标单元组的语义置信度可以包括:如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组的语义置信度:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组的语义置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,posSteps表示目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示目标单元组对应的字单元数量(根据设定可以计入或者不计入空格),pre.rate表示目标单元组的最大前驱置信度,pos.rate表示目标单元组的最大后继置信度,sessionRelationRate表示目标单元组与输入信息的关联度。
上述步骤中,上述实施例公开的技术方案中,计算目标单元组与输入信息的关联度,可以包括:
按照下列公式计算所述目标单元组与所述输入信息的关联度:
其中,RELATIONRATE表示预先设定的系数,S表示输入信息对应的全部语义单元的集合,s表示该集合中的任一个语义单元,c表示目标单元组对应的语义单元,dc→s表示语义单元c到语义单元s的语义距离。
另外,确定目标单元组对应表示单元与其在输入信息中对应位置的表示单元具体可以包括:确定目标单元组对应表示单元在输入信息中对应的位置,可以包括开始位置、结束位置及长度等,进而判断输入信息中位于该位置的表示单元与目标单元组对应的表示单元是否一致,如果是,则说明完全匹配,其他情况则说明不完全匹配。
本发明公开的上述技术方案中,前驱置信度是指一个字符串被假设认为具有某种语义,它的一个连续前驱字符串所包含的一个语义组合中的所有语义和这个语义的匹配程度,后继置信度是指一个字符串被假设认为具有某种语义,它的一个连续后继字符串所包含的一个语义组合中的所有语义和这个语义的匹配程度;基于前驱置信度及后继置信度得出语义置信度,由此,语义置信度越大说明对应语义越准确,因此,本申请通过上述计算步骤实现语义置信度的计算,进而保证了本申请语义识别方案的准确性。
需要说明的是,上述实施例中所提出的计算公式均不是唯一的计算公式,也可以根据实际需要按照其他计算公式进行计算,均在本发明的保护范围之内。上述实施例中,语义关联是指在知识图谱中,从一个语义单元到另外一个语义单元之间的最短路径,即语义距离小于根据实际需要设定的对应阈值,则认为这两个语义单元之间存在语义关联。其中,计算任两个语义单元之间的语义距离,可以包括:
确定待计算的两个语义单元分别为语义A及语义B,获取语义A到语义B的每个父语义的全部第一路径,基于预设原则计算每条第一路径的长度,并从中选取出长度最短的第一路径长度,获取语义A到语义B包含的每个义元及每个义元的父义元的全部第二路径,基于预设原则计算每条第二路径的长度,并从中选取出长度最短的第二路径长度,确定第一路径长度及第二路径长度中最短的路径长度为语义A到语义B的语义距离;预设原则为语义单元包括语义及义元,且语义到对应义元、义元到对应语义、子语义到对应父语义及子义元到对应父义元的距离值均为0,父语义到对应子语义及父义元到对应子义元的距离值均为∞,其他语义单元之间的距离值均为1。
语义层的语义单元可以组成有向子图,且语义单元之间的边带有距离值,具体该距离值可以根据实际需要进行定义,如当语义单元包括语义及义元时,定义语义到其包括的每个义元的边的距离值为0,义元到其所属的语义的边的距离值为0,子语义到其对应的父语义的边的距离值为0,父语义到其对应的子语义的边的距离值为∞,子义元到其对应的父义元的边的距离值为0,父义元到其对应的子义元的边的距离值为∞,其它边的距离值均默认为1,当然也可以根据实际需要设定为其它值。在这个有向图中计算两个语义之间(A→B)的最小路径长度,即语义距离,A到B的每一个父语义的最小路径长度,A到B包含的每一个义元及它们的父义元的最小路径长度,其中最小的最小路径长度的就是这两个语义之间的语义距离,需要说明的是上述路径通过经过义元和/或语义的连接实现。当然还可以根据实际需要进行其他设定,均在本发明的保护范围之内。
本发明实施例提供的一种基于知识图谱的语义识别方法,确定任两个单元组之间是否存在语义关联,可以包括:
确定任两个单元组分别对应的语义单元,并以其中一个语义单元为检索值在预先设置的检索集中进行检索,如果得到的结果包括另一个语义单元,则确定这两个单元组之间存在语义关联,否则,则确定这两个单元组之间不存在语义关联;
对应的,预先设置检索集,包括:
对于任一语义单元A,查找与该语义单元A的语义距离小于对应阈值的语义单元B,并将语义单元A与语义单元B之间的语义距离及语义单元B加入检索集中;
查找与语义单元B的语义距离小于对应阈值的语义单元C,并以语义单元A为检索值在检索集中进行检索,如果得到的结果包括语义单元C且语义单元A到语义单元C的语义距离大于语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和,则利用语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和替代语义单元A到语义单元C的语义距离。通过上述方式确定任两个语义单元是否存在语义关联,进一步确定任两个单元组是否具有语义关联,大大提高了实现速率。
具体来说,建立的检索集中作为检索值key及作为检索所得结果value的形式可以为:
1、一个K-V检索系统(Ψ),其中key是语义单元,value是从语义单元单元A到语义单元B的语义距离。
2、一个集合(Ω),集合中的内容是:(语义单元B—语义单元A到语义单元B的语义距离)对。
上述检索集具体可以为k-v数据库、搜索引擎、关系数据库等,当然还可以根据实际需要进行其他设定,均在本发明的保护范围之内。
对于每一个语义单元A,通过路径遍历的方式查找到所有和该语义单元A的语义距离小于(小于或等于,具体可以根据实际需要进行设置)对应阀值α的语义单元B。
将所有语义单元B和语义单元A到语义单元B的语义距离d构成的记录对,放入检索集Ψ或者Ω中。
通过路径遍历的方式查找到所有和该语义单元B的语义距离小于(小于或等于,具体可以根据实际需要进行设置)对应阀值α的语义单元C及语义单元B到语义单元C的语义距离d1。
如果d+d1小于或者小于等于阀值(α),则在检索集Ψ(或者Ω)中查找C,如果找到C,并且存储在Ψ(或者Ω)中A到C的语义距离大于d+d1,则用d+d1替换这个语义距离;如果没有找到C,则将C和语义距离(d+d1)加到Ψ(或者Ω)中。
由此,在得到的检索集中,当确定语义单元A与语义单元B是否存在语义关联时,从检索集中,以A为key,取出value,如果B在value中可以找到(如果是k-v,则以B作为key进行检索,如果是集合,则进行遍历),则认为A和B之间存在语义关联,从value中得到A到B的语义距离(如果是k-v,则以B作为key进行检索,如果是集合,则进行遍历);如果B在value中找不到,则认为A到B的语义距离超过阀值(α),认为它们之间不存在语义关联。上述A、B及C为任意符合上述要求的语义单元,由此,通过检索集可以快速确定出任两个语义单元的语义距离情况。
本发明实施例提供的一种基于知识图谱的语义识别方法,选取出选定语义单元之后,还可以包括:
将选定语义单元按照对应表示单元在输入信息中的位置进行排列,如果存在连续多个语义单元均和一个或多个其他的语义单元具有语义关联,则利用该一个或多个其他的语义单元替代对应的连续多个语义单元。
将选定语义单元按照上述规则进行排列后,如果存在连续多个语义单元均和一个或多个其他的语义单元具有语义关联,则说明该连续多个语义单元均对应一个或多个其他的语义单元,此时,可以直接利用对应的一个或多个语义单元替换该连续的多个语义单元,实现非直接表达语义的识别。
本发明实施例提供的一种基于知识图谱的语义识别方法,将选定语义单元按照对应表示单元在输入信息中的位置进行排列之后,还可以包括:
将进行排列之后的选定语义单元替换为对应的表示单元,得到对输入信息的分词结果。
将选定语义单元按照对应表示单元在输入信息中的位置进行排列的结果,则为输入信息的文本语义,对应的,如果将每个选定语义单元替换为对应的表示单元,或者说直接将表示单元按照其在输入信息中的位置进行排列,即可得到输入信息的文本分词结果,也即,本申请公开的上述技术特征还可以用于对文本进行分词。
本发明实施例提供的一种基于知识图谱的语义识别方法,选取出选定意图单元,可以包括:
对于任一意图单元,将每个与该意图单元关联的语义单元对该意图单元的语义置信度的值相加,得到该意图单元的文本置信度;
确定文本置信度大于对应阈值的意图单元为选定意图单元。
其中,与意图单元关联的语义单元可以为和意图单元有边连接的语义单元,在构建知识图谱的过程中已经根据实际需要对各单元之间是否具有边连接进行了设定,因此,可以直接根据知识图谱确定出与意图单元关联的语义单元。
具体来说,可以按照下列公式计算每个意图单元的文本置信度:
其中,RELATIONRATEs→i表示语义单元s对意图单元i的语义置信度的值,该贡献值可以预先设定,通过和意图i相连的语义单元的语义置信度的值的累加计算可以得到意图单元的文本置信度,文本置信度越高,该意图单元越能够表达输入信息对应的意图,因此,此处选取文本置信度大于对应阈值的意图单元为选定意图单元,其中,对应阈值可以根据实际需要进行预先设定,从而选取出最能表达出输入信息意图的意图单元,保证了本申请语义识别方案的准确性及有效性。
本发明实施例提供的一种基于知识图谱的语义识别方法,选取出选定意图单元之后,还可以包括:
对于语义单元中具有否定义元的语义,确定与该语义对应表示单元在输入信息中位置最近的具有动词词性的表示单元或者具有由连词连接的多个动词词性的表示单元为特定表示单元,确定与特定表示单元对应的选定意图单元,并将该选定意图单元确定为否定意图单元,将选定意图单元中与否定意图单元相同的选定意图单元去除。
通过对具有否定义元的语义具有上述关系的意图单元的去除,能够将与输入信息表达的意图不符合的或者说否定该意图的意图单元去除,从而进一步保证了最终获取的选定意图单元与输入信息的匹配程度。另外,可以将最终剩余的选定意图单元加入对应的意图集合中,方便对其的管理。
本发明实施例还提供了一种基于知识图谱的语义识别系统,如图6所示,可以包括:
图谱构建模块11,用于预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;
转换模块12,用于接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;
第一选取模块13,用于确定与每个表示单元关联的语义单元,并根据每个语义单元与输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由语义单元中选取出选定语义单元;
第二选取模块14,用于确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与输入信息对应的意图。
本发明实施例提供的一种基于知识图谱的语义识别系统,转换模块还可以包括:
筛选单元,用于:将包含第一单元大于对应阈值,但只关联到一个输入信息对应第一单元的第二单元去除,并将关联到的输入信息对应第一单元数量与包含的第一单元数量的比值低于对应阈值的第二单元去除;其中,第二单元为字单元时,第一单元为语音单元;第二单元为表示单元时,第一单元为字单元。
本发明实施例提供的一种基于知识图谱的语义识别系统,第一选取模块可以包括:
选取单元,用于:将语义单元放入候选集合中,将每个表示单元及对应的语义单元组成与每个表示单元对应的单元组,基于每个单元组的最大前驱置信度及最大后继置信度计算该单元组的语义置信度;由候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元;确定该选定语义单元在输入信息中对应的表示单元,并将候选集合中与该表示单元对应的其他语义单元及与该表示单元在输入信息中的位置冲突的表示单元及对应语义单元去除;返回执行由候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元的步骤,直至候选集合中不存在语义单元为止。
本发明实施例提供的一种基于知识图谱的语义识别系统,选取单元可以包括:
置信度计算单元,用于:确定当前待计算的单元组为目标单元组,并获取目标单元组的全部直接前驱组、直接后继组、每个直接前驱组的最大前驱置信度及每个直接后继组的最大后继置信度;基于目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接前驱组的最大前驱置信度及该目标单元组与输入信息的关联度计算目标单元组对应于每个直接前驱组的前驱置信度,并从中选取最大的前驱置信度为该目标单元组的最大前驱置信度;基于目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接后继组的最大后继置信度及该目标单元组与输入信息的关联度计算目标单元组对应于每个直接后继组的后继置信度,并从中选取最大的后继置信度为该目标单元组的最大后继置信度;基于目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的字单元数量、最大前驱置信度、最大后继置信度及该单元组与输入信息的关联度计算该单元组的语义置信度。
本发明实施例提供的一种基于知识图谱的语义识别系统,置信度计算单元可以包括:
第一计算子单元,用于如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,step.length表示目标单元组对应的字单元数量,pre.rate表示任一直接前驱组的最大前驱置信度,sessionRelationRate表示目标单元组与输入信息的关联度。
本发明实施例提供的一种基于知识图谱的语义识别系统,置信度计算单元可以包括:
第二计算子单元,用于:如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,posSteps表示目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示目标单元组对应的字单元数量,pos.rate表示任一直接后继组的最大后继置信度,sessionRelationRate表示目标单元组与输入信息的关联度。
本发明实施例提供的一种基于知识图谱的语义识别系统,置信度计算单元可以包括:
第三计算子单元,用于如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组的语义置信度:
如果目标单元组对应的表示单元与该表示单元在输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组的语义置信度:
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,posSteps表示目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示目标单元组对应的字单元数量,pre.rate表示目标单元组的最大前驱置信度,pos.rate表示目标单元组的最大后继置信度,sessionRelationRate表示目标单元组与输入信息的关联度。
本发明实施例提供的一种基于知识图谱的语义识别系统,第一计算子单元和/或第二计算子单元和/或第三计算子单元可以包括:
关联度计算子单元,用于按照下列公式计算目标单元组与输入信息的关联度:
其中,RELATIONRATE表示预先设定的系数,S表示输入信息对应的全部语义单元的集合,s表示该集合中的任一个语义单元,c表示目标单元组对应的语义单元,dc→s表示语义单元c到语义单元s的语义距离。
本发明实施例提供的一种基于知识图谱的语义识别系统,第一计算子单元和/或第二计算子单元和/或第三计算子单元可以包括:
语义关联确定子单元,用于:确定任两个单元组分别对应的语义单元,并以其中一个语义单元为检索值在预先设置的检索集中进行检索,如果得到的结果包括另一个语义单元,则确定这两个单元组之间存在语义关联,否则,则确定这两个单元组之间不存在语义关联;
对应的,预先设置检索集,包括:
对于任一语义单元A,查找与该语义单元A的语义距离小于对应阈值的语义单元B,并将语义单元A与语义单元B之间的语义距离及语义单元B加入检索集中;
查找与语义单元B的语义距离小于对应阈值的语义单元C,并以语义单元A为检索值在检索集中进行检索,如果得到的结果包括语义单元C且语义单元A到语义单元C的语义距离大于语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和,则利用语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和替代语义单元A到语义单元C的语义距离。
本发明实施例提供的一种基于知识图谱的语义识别系统,语义关联确定子单元可以包括:
语义距离计算子单元,用于:确定待计算的两个语义单元分别为语义A及语义B,获取语义A到语义B的每个父语义的全部第一路径,基于预设原则计算每条第一路径的长度,并从中选取出长度最短的第一路径长度,获取语义A到语义B包含的每个义元及每个义元的父义元的全部第二路径,基于预设原则计算每条第二路径的长度,并从中选取出长度最短的第二路径长度,确定第一路径长度及第二路径长度中最短的路径长度为语义A到语义B的语义距离;预设原则为语义单元包括语义及义元,且语义到对应义元、义元到对应语义、子语义到对应父语义及子义元到对应父义元的距离值均为0,父语义到对应子语义及父义元到对应子义元的距离值均为∞,其他语义单元之间的距离值均为1。
本发明实施例提供的一种基于知识图谱的语义识别系统选取出选定语义单元之后,置信度计算单元还可以包括:
替代单元,用于将选定语义单元按照对应表示单元在输入信息中的位置进行排列,如果存在连续多个语义单元均和一个或多个其他的语义单元具有语义关联,则利用该一个或多个其他的语义单元替代对应的连续多个语义单元。
本发明实施例提供的一种基于知识图谱的语义识别系统,还可以包括:
分词模块,用于选定语义单元按照对应表示单元在输入信息中的位置进行排列之后,将进行排列之后的选定语义单元替换为对应的表示单元,得到对输入信息的分词结果。
本发明实施例提供的一种基于知识图谱的语义识别系统,第二选取模块可以包括:
意图选取单元,用于:对于任一意图单元,将每个与该意图单元关联的语义单元对该意图单元的语义置信度的值相加,得到该意图单元的文本置信度;确定文本置信度大于对应阈值的意图单元为选定意图单元。
本发明实施例提供的一种基于知识图谱的语义识别系统,第二选取模块还可以包括:
替换单元,用于:选取出选定意图单元之后,对于语义单元中具有否定义元的语义,确定与该语义对应表示单元在输入信息中位置最近的具有动词词性的表示单元或者具有由连词连接的多个动词词性的表示单元为特定表示单元,确定与特定表示单元对应的选定意图单元,并将该选定意图单元确定为否定意图单元,将选定意图单元中与否定意图单元相同的选定意图单元去除。
本发明实施例提供的一种基于知识图谱的语义识别系统中相关部分的说明请参见本发明实施例提供的一种基于知识图谱的语义识别方法中对应部分的详细说明,在此不再赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种基于知识图谱的语义识别方法,其特征在于,包括:
预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;
接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;
确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;
确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。
2.根据权利要求1所述的方法,其特征在于,确定与每个语音单元关联的字单元之后及确定与每个字单元关联的表示单元之后,还包括:
将包含第一单元大于对应阈值,但只关联到一个输入信息对应第一单元的第二单元去除,并将关联到的输入信息对应第一单元数量与包含的第一单元数量的比值低于对应阈值的第二单元去除;
其中,第二单元为字单元时,第一单元为语音单元;第二单元为表示单元时,第一单元为字单元。
3.根据权利要求1所述的方法,其特征在于,选取出所述选定语义单元,包括:
将所述语义单元放入候选集合中,将每个表示单元及对应的语义单元组成与每个表示单元对应的单元组,基于每个单元组的最大前驱置信度及最大后继置信度计算该单元组的语义置信度;
由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元;
确定该选定语义单元在所述输入信息中对应的表示单元,并将所述候选集合中与该表示单元对应的其他语义单元及与该表示单元在所述输入信息中的位置冲突的表示单元及对应语义单元去除;返回执行由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元的步骤,直至所述候选集合中不存在语义单元为止。
4.根据权利要求3所述的方法,其特征在于,计算每个单元组的语义置信度,包括:
确定当前待计算的单元组为目标单元组,并获取所述目标单元组的全部直接前驱组、直接后继组、每个直接前驱组的最大前驱置信度及每个直接后继组的最大后继置信度;
基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接前驱组的最大前驱置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接前驱组的前驱置信度,并从中选取最大的前驱置信度为该目标单元组的最大前驱置信度;
基于所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接后继组的最大后继置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接后继组的后继置信度,并从中选取最大的后继置信度为该目标单元组的最大后继置信度;
基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的字单元数量、最大前驱置信度、最大后继置信度及该单元组与所述输入信息的关联度计算该单元组的语义置信度。
5.根据权利要求4所述的方法,其特征在于,计算所述目标单元组对应于任一直接前驱组的前驱置信度,包括:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
( F U L L M A T H R A T E + S T E P R A T E p o e S t e p s ) × s t e p . l e n g t h + p r e . r a t e + S E S S I O N R E L A T I O N R A T E × s e s s i o n Re l a t i o n R a t e
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:
S T E P R A T E p o s S t e p s × s t e p . l e n g t h + p r e . r a t e + S E S S I O N R E L A T I O N R A T E × s e s s i o n Re l a t i o n R a t e
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pre.rate表示任一直接前驱组的最大前驱置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。
6.根据权利要求4所述的方法,其特征在于,计算所述目标单元组对应于任一直接后继组的后继置信度,包括:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
( F U L L M A T H R A T E + S T E P R A T E p o s S t e p s ) × s t e p . l e n g t h + p o s . r a t e + S E S S I O N R E L A T I O N R A T E × s e s s i o n Re l a t i o n R a t e
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:
S T E P R A T E p r e S t e p s × s t e p . l e n g t h + p o s . r a t e + S E S S I O N R E L A T I O N R A T E × s e s s i o n Re l a t i o n R a t e
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,posSteps表示所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pos.rate表示任一直接后继组的最大后继置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。
7.根据权利要求4所述的方法,其特征在于,计算所述目标单元组的语义置信度,包括:
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组的语义置信度:
( ( F U L L M A T H R A T E + S T E P R A T E ) × s t e p . l e n g t h + p r e . r a t e + p o s . r a t e ) × ( p r e . l e n g t h + p o s . l e n g t h + s t e p . l e n g t h ) p r e S t e p s + p o s S t e p s + 1 + S E S S I O N R E L A T I O N R A T E × s e s s i o n Re l a t i o n R a t e
如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组的语义置信度:
( S T E P R A T E × s t e p . l e n g t h + p r e . r a t e + p o s . r a t e ) × ( p r e . l e n g t h + p o s . l e n g t h + s t e p . l e n g t h ) p r e S t e p s + p o s S t e p s + 1 + S E S S I O N R E L A T I O N R A T E × s e s s i o n Re l a t i o n R a t e
其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,posSteps表示所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pre.rate表示所述目标单元组的最大前驱置信度,pos.rate表示所述目标单元组的最大后继置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。
8.根据权利要求5至7任一项所述的方法,其特征在于,计算所述目标单元组与所述输入信息的关联度,包括:
按照下列公式计算所述目标单元组与所述输入信息的关联度:
s e s s i o n Re l a t i o n R a t e = R E L A T I O N R A T E × Σ s ∈ S 1 d c → s
其中,RELATIONRATE表示预先设定的系数,S表示所述输入信息对应的全部语义单元的集合,s表示该集合中的任一个语义单元,c表示所述目标单元组对应的语义单元,dc→s表示语义单元c到语义单元s的语义距离。
9.根据权利要求4所述的方法,其特征在于,确定任两个单元组之间是否存在语义关联,包括:
确定任两个单元组分别对应的语义单元,并以其中一个语义单元为检索值在预先设置的检索集中进行检索,如果得到的结果包括另一个语义单元,则确定这两个单元组之间存在语义关联,否则,则确定这两个单元组之间不存在语义关联;
对应的,预先设置所述检索集,包括:
对于任一语义单元A,查找与该语义单元A的语义距离小于对应阈值的语义单元B,并将语义单元A与语义单元B之间的语义距离及语义单元B加入检索集中;
查找与语义单元B的语义距离小于对应阈值的语义单元C,并以语义单元A为检索值在检索集中进行检索,如果得到的结果包括语义单元C且语义单元A到语义单元C的语义距离大于语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和,则利用语义单元A到语义单元B的语义距离及语义单元B到语义单元C的语义距离之和替代语义单元A到语义单元C的语义距离。
10.根据权利要求9所述的方法,其特征在于,计算任两个语义单元之间的语义距离,包括:
确定待计算的两个语义单元分别为语义A及语义B,获取语义A到语义B的每个父语义的全部第一路径,基于预设原则计算每条第一路径的长度,并从中选取出长度最短的第一路径长度,获取语义A到语义B包含的每个义元及每个义元的父义元的全部第二路径,基于预设原则计算每条第二路径的长度,并从中选取出长度最短的第二路径长度,确定第一路径长度及第二路径长度中最短的路径长度为语义A到语义B的语义距离;所述预设原则为所述语义单元包括语义及义元,且语义到对应义元、义元到对应语义、子语义到对应父语义及子义元到对应父义元的距离值均为0,父语义到对应子语义及父义元到对应子义元的距离值均为∞,其他语义单元之间的距离值均为1。
11.根据权利要求4所述的方法,其特征在于,选取出选定语义单元之后,还包括:
将所述选定语义单元按照对应表示单元在所述输入信息中的位置进行排列,如果存在连续多个语义单元均和一个或多个其他的语义单元具有语义关联,则利用该一个或多个其他的语义单元替代对应的连续多个语义单元。
12.根据权利要求11所述的方法,其特征在于,将所述选定语义单元按照对应表示单元在所述输入信息中的位置进行排列之后,还包括:
将进行排列之后的选定语义单元替换为对应的表示单元,得到对所述输入信息的分词结果。
13.根据权利要求1所述的方法,其特征在于,选取出选定意图单元,包括:
对于任一意图单元,将每个与该意图单元关联的语义单元对该意图单元的语义置信度的值相加,得到该意图单元的文本置信度;
确定所述文本置信度大于对应阈值的意图单元为选定意图单元。
14.根据权利要求13所述的方法,其特征在于,选取出选定意图单元之后,还包括:
对于所述语义单元中具有否定义元的语义,确定与该语义对应表示单元在所述输入信息中位置最近的具有动词词性的表示单元或者具有由连词连接的多个动词词性的表示单元为特定表示单元,确定与所述特定表示单元对应的选定意图单元,并将该选定意图单元确定为否定意图单元,将所述选定意图单元中与所述否定意图单元相同的选定意图单元去除。
15.一种基于知识图谱的语义识别系统,其特征在于,包括:
图谱构建模块,用于预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;
转换模块,用于接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;
第一选取模块,用于确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;
第二选取模块,用于确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。
CN201611192705.3A 2016-12-21 2016-12-21 一种基于知识图谱的语义识别方法及系统 Active CN106776564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611192705.3A CN106776564B (zh) 2016-12-21 2016-12-21 一种基于知识图谱的语义识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611192705.3A CN106776564B (zh) 2016-12-21 2016-12-21 一种基于知识图谱的语义识别方法及系统

Publications (2)

Publication Number Publication Date
CN106776564A true CN106776564A (zh) 2017-05-31
CN106776564B CN106776564B (zh) 2020-04-24

Family

ID=58897001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611192705.3A Active CN106776564B (zh) 2016-12-21 2016-12-21 一种基于知识图谱的语义识别方法及系统

Country Status (1)

Country Link
CN (1) CN106776564B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107783763A (zh) * 2017-09-29 2018-03-09 乐蜜有限公司 一种应用程序生成方法、装置、服务器和可读存储介质
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108229578A (zh) * 2018-01-25 2018-06-29 海南大学 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN108334496A (zh) * 2018-01-30 2018-07-27 中国科学院自动化研究所 用于特定领域的人机对话理解方法与系统及相关设备
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN110263210A (zh) * 2019-06-24 2019-09-20 上海乂学教育科技有限公司 自适应英语学习词库图谱管理方法和系统
CN110703614A (zh) * 2019-09-11 2020-01-17 珠海格力电器股份有限公司 语音控制方法、装置、语义网络构建方法及装置
CN112559669A (zh) * 2020-12-09 2021-03-26 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113609271A (zh) * 2021-08-11 2021-11-05 平安科技(深圳)有限公司 基于知识图谱的业务处理方法、装置、设备及存储介质
CN114333774A (zh) * 2021-12-15 2022-04-12 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
TWI779982B (zh) * 2022-01-04 2022-10-01 中華電信股份有限公司 改善語音辨識模型的方法和電子裝置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639840A (zh) * 2008-07-29 2010-02-03 华天清 网络信息语义结构识别方法和装置
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
US20150073798A1 (en) * 2013-09-08 2015-03-12 Yael Karov Automatic generation of domain models for virtual personal assistants
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639840A (zh) * 2008-07-29 2010-02-03 华天清 网络信息语义结构识别方法和装置
US20150073798A1 (en) * 2013-09-08 2015-03-12 Yael Karov Automatic generation of domain models for virtual personal assistants
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN110019825B (zh) * 2017-07-25 2021-08-20 华为技术有限公司 一种分析数据语义的方法及装置
CN107783763A (zh) * 2017-09-29 2018-03-09 乐蜜有限公司 一种应用程序生成方法、装置、服务器和可读存储介质
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
US11062090B2 (en) 2017-12-08 2021-07-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining general text content, server, and storage medium
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108229578A (zh) * 2018-01-25 2018-06-29 海南大学 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN108334496A (zh) * 2018-01-30 2018-07-27 中国科学院自动化研究所 用于特定领域的人机对话理解方法与系统及相关设备
CN108334496B (zh) * 2018-01-30 2020-06-12 中国科学院自动化研究所 用于特定领域的人机对话理解方法与系统及相关设备
CN110263210A (zh) * 2019-06-24 2019-09-20 上海乂学教育科技有限公司 自适应英语学习词库图谱管理方法和系统
CN110703614B (zh) * 2019-09-11 2021-01-22 珠海格力电器股份有限公司 语音控制方法、装置、语义网络构建方法及装置
CN110703614A (zh) * 2019-09-11 2020-01-17 珠海格力电器股份有限公司 语音控制方法、装置、语义网络构建方法及装置
CN112559669A (zh) * 2020-12-09 2021-03-26 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备
CN112559669B (zh) * 2020-12-09 2024-06-04 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113609271A (zh) * 2021-08-11 2021-11-05 平安科技(深圳)有限公司 基于知识图谱的业务处理方法、装置、设备及存储介质
CN113609271B (zh) * 2021-08-11 2023-07-25 平安科技(深圳)有限公司 基于知识图谱的业务处理方法、装置、设备及存储介质
CN114333774A (zh) * 2021-12-15 2022-04-12 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN114333774B (zh) * 2021-12-15 2024-02-23 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
TWI779982B (zh) * 2022-01-04 2022-10-01 中華電信股份有限公司 改善語音辨識模型的方法和電子裝置

Also Published As

Publication number Publication date
CN106776564B (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN106776564A (zh) 一种基于知识图谱的语义识别方法及系统
CN109033135A (zh) 一种面向软件项目知识图谱的自然语言查询方法及系统
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN104991905B (zh) 一种基于层次索引的数学表达式检索方法
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
Nagao Knowledge and inference
CN105528411B (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN108763529A (zh) 一种智能检索方法、装置和计算机可读存储介质
CN107256212A (zh) 中文搜索词智能切分方法
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN110659357A (zh) 一种基于本体语义相似度的地理知识问答系统
CN113590737B (zh) 基于知识图谱的事件数据处理方法、装置、设备和介质
CN105447104A (zh) 一种知识地图生成方法及装置
CN113190692B (zh) 一种知识图谱的自适应检索方法、系统及装置
Sun A natural language interface for querying graph databases
Cabrio et al. Qakis@ qald-2
CN112883172B (zh) 一种基于双重知识选择的生物医学问答方法
CN117973540A (zh) 基于知识图谱的检索增强生成系统与方法
Stella et al. Mental lexicon growth modelling reveals the multiplexity of the English language
CN103793474B (zh) 一种面向知识管理的自定义知识分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant