CN107818078A - 汉语自然语言对话的语义关联与匹配方法 - Google Patents
汉语自然语言对话的语义关联与匹配方法 Download PDFInfo
- Publication number
- CN107818078A CN107818078A CN201710593854.9A CN201710593854A CN107818078A CN 107818078 A CN107818078 A CN 107818078A CN 201710593854 A CN201710593854 A CN 201710593854A CN 107818078 A CN107818078 A CN 107818078A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- verb
- participle
- read statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种汉语自然语言对话的语义关联与匹配方法,对一次采集的汉语对话语句进行分词和分句,将各分句分词结果以及分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果,最后,将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种汉语自然语言对话的语义关联与匹配方法。
背景技术
现在人们对语言认知和自然语言语义理解总体上仍处于探索阶段。当前已经面向实际应用的语义关系信息检索技术基本只停留在关键词匹配的浅层方法上,且搜索结果范围相当宽泛,需要人们再次从中寻找对其有用的信息,最具典型性的例子如:互联网网页搜索引擎;另一方面,在学术研究领域,当前自然语言理解技术大多在用概率统计的模型对文字进行分析处理,在语句分词、大型语料库标注和构建、语音识别方面研究较多,在面向汉语语句语义处理方面的技术多停留在理论研究阶段,能解决现实生活中实际问题的应用较少。尤其在细分到解决汉语对话语句语义关联的具体应用问题方面,能提出面向实际应用的可通过计算机硬件部署实施的技术方案则更少。
发明内容
有鉴于此,本发明的主要目的在于提供一种汉语自然语言对话的语义关联与匹配方法。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种汉语自然语言对话的语义关联与匹配方法,该方法为:对一次采集的汉语对话语句进行分词和分句,将各分句分词结果以及分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果,最后,将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录。
上述方案中,所述输入语句分词数据结构是每个分词构建对应子结构的集合,每个子结构由三组数据组成,第一组用于存放分词字符串、词性,第二组用于存放第一至第五强度联系词的字符串、词性、强度联系类型、强度联系值,第三组用于存放两词间第一激活联系词对应字符串变量,若该分词为分句中前中心词,则第一激活联系词位置存放后中心词字符串、两词间激活联系类型、动词中心词字符串;若该分词为分句中后中心词,则第一激活联系词位置存放前中心词字符串、两词间激活联系类型、动词中心词字符串;其他情况第一激活联系词对应位置均为空,第三组还用于存放两词间第二至第五激活联系词对应变量,具体为存放两词间激活联系词字符串、激活联系类型、激活联系词在输入语句分词数据结构中坐标位置信息。
上述方案中,所述将各分句分词结果以及分词对应的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在构建输入语句分词数据结构过程中,该方法还包括在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词在输入语句分词数据结构中的准确位置。
上述方案中,所述确定各分句的动词中心词在输入语句分词数据结构中的准确位置,具体为:若一个分句中无动词,则该分句的动词中心词标记为缺省状态;若一个分句中仅存在一个动词,则确定该动词即为动词中心词;若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置。
上述方案中,所述若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置,具体为:根据条件调整输入语句分词数据结构中各分词的词性,加入在数据处理环节存在的临时词性标记,检查输入语句各分句数据结构中词性和分词字符串信息,若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k-1个分词字符串为助词,则将该分句的输入语句分词数据结构中第k个分词词性调整为20动词性名词;若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k+1个分词字符串为助词,则将该分句的输入语句分词数据结构中第k个分词词性调整为24动词性修饰词;在对各分词词性调整后,若该分句第K个分词为动词、及物动词或不及物动词,其后第k+t个分词为动词,t为自然数,且第k个分词与k+t个分词之间无名词、代词,确定该分句第k+t个分词为动词中心词。
上述方案中,所述确定各分句的前中心词、后中心词在输入语句分词数据结构中的准确位置,具体为:以输入语句各分句的动词中心词为界,将分句划分成前后两个组块,在动词中心词之前的组块中确定前中心词具体位置;在动词中心词之后的组块中确定后中心词具体位置;对于输入语句中无动词中心词的情况,整个分句做为前组块,在其中确定前中心词具体位置,其后中心词确定为缺省状态。
上述方案中,该方法还包括:将动词中心词、前中心词、后中心词对应的相关两词间激活联系词及两词间激活联系类型存入输入语句分词数据结构对应位置。
上述方案中,所述对通过匹配筛选获得的若干条语句记录并且确定各语句记录的语义置信度,具体为:依次确定各语句记录的初步筛选阶段语义置信度记f1、词法语义置信度f2、句法语义置信度f3,之后求和即为各语句记录的语义置信度F,即通过计算公式计算得到一条语句记录对于输入语句的语义置信度F值,其中计算公式中参数是通过样本语料库中输入语句与其后的语义相关语句记录的排序情况,以有监督的机器学习方法确定。
上述方案中,所述将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录,具体为:将输入语句字符串及其分词形式、各分句前后中心词和动词中心词,按公告信息库内各字段对应格式存入公告信息库,由此形成公告信息库语句记录不断丰富的闭环。
与现有技术相比,本发明通过从客户端输入的汉语语句实现复杂语义的精确检索,即从数据库海量历史输入语句记录中匹配到与输入语句语义最相关的记录并显示。可以有效解决用户在面对大量信息流时信息过载的问题,能精确过滤用户不关心的信息,只显示有价值信息,进一步降低人们发布信息和获取信息的成本,方便高效。
附图说明
图1为本发明实施例提供一种汉语自然语言对话的语义关联与匹配方法的流程图;
图2为本发明实施例提供一种汉语自然语言对话的语义关联与匹配方法中输入语句分词数据结构中一个分词结构元素的构成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种汉语自然语言对话的语义关联与匹配方法,如图1所示,该方法为:对采集的汉语对话语句进行分词和分句,将各分句分词结果和分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果。最后,将输入语句字符串及其分词形式、各分句前后中心词和动词中心词,按公告信息库内各字段对应格式存入公告信息库,由此形成公告信息库语句记录不断丰富的闭环。
如图2所示,所述输入语句分词数据结构中每一个具体的分词数据结构都由三组数据组成。第一组用于存放分词字符串、词性。第二组用于存放第一至第五强度联系词的字符串、词性、强度联系类型、强度联系值。第三组用于存放两词间第一至第五激活联系词对应变量,其中,若该分词为分句中前中心词,则第一激活联系词位置存放后中心词字符串、两词间激活联系类型、动词中心词字符串;若该分词为分句中后中心词,则第一激活联系词位置存放前中心词字符串、两词间激活联系类型、动词中心词字符串;其他情况第一激活联系词对应位置均为空。两词间第二至第五激活联系词对应变量,具体存放两词间激活联系词字符串、激活联系类型、激活联系词在输入语句分词数据结构中坐标位置信息。
所述强度联系词是指已在数据库词表内某个具体词的记录中存储的与该词有语义联系的其他词,两词间强度联系类型表示这两个词之间语义联系的类型。强度联系词的联系类型(数字),正负号代表从前指后或后指前。0一般性联系(为默认的联系类型)、1否定联系、2同义联系、3反义联系、4实例与类联系、5实例与命名实体联系、6因果联系、7整体与部分联系、8实体与属性联系、9施事与动作联系、10动作与受事联系、11伴随联系、12名词对应联系(如:妈妈和儿子互为名词对应关系)13动词呼应联系(如:买和卖、来和去、丢和捡)、14地理位置强度联系。
所述激活联系词是指一个输入语句分句内各分词之间的不同类型的语义联系情况,两词间激活联系类型可分为:0缺省状态;1一般动词联系;2动词“是”类型联系;3动词“有”类型联系;4修饰限定类型联系(其中:400名词性修饰限定、403代词性修饰限定、404形容词性修饰限定、405副词性修饰限定、406否定性副词修饰限定、407数量词修饰限定、408所处词修饰限定、409方位词修饰限定、411区别词修饰限定、412时间词修饰限定、413地点词修饰限定、415区别词性修饰限定、424动词性修饰限定);5并列类型联系;6代词及指称词指代类型联系;7主系表结构类型联系。
所述将分词结果和各分句的动词中心词、前中心词、后中心词构建输入语句分词数据结构之前,该方法还包括确定各分句的动词中心词、前中心词、后中心词在输入语句分词数据结构中的准确位置。
所述确定各分句的动词中心词在输入语句分词数据结构中的准确位置,具体为:若一个分句中无动词,则该分句的动词中心词标记为缺省状态;若一个分句中仅存在一个动词,则确定该动词即为动词中心词;若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置。
所述若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置。
具体通过以下步骤实现:
步骤101:根据条件调整输入语句分词数据结构中各分词的词性,加入在数据处理环节存在的临时词性标记,如:1及物动词和2不及物动词可调整为24动词性修饰词、20动词性名词(数字表示在分词数据结构中的词性标记)。
检查输入语句各分句数据结构中词性和分词字符串信息,若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k-1个分词字符串为助词“的、得”,则将该分句分词数据结构中第k个分词词性调整为20动词性名词;若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k+1个分词字符串为助词“的、得”,则将该分句分词数据结构中第k个分词词性调整为24动词性修饰词。
步骤102:在对输入语句各分词词性调整后,若该分句第K个分词为动词(及物动词、不及物动词),其后第k+t个分词为动词(t为自然数),且第k个分词与k+t个分词之间无名词、代词(即表明该分句不为复杂句),确定该分句第k+t个分词为动词中心词。
所述确定各分句的前中心词、后中心词在输入语句分词数据结构中的准确位置。
进一步,具体通过以下步骤实现:
以输入语句各分句的动词中心词为界,将分句划分成前后两个组块。在动词中心词之前的组块中确定前中心词具体位置;在动词中心词之后的组块中确定后中心词具体位置;对于输入语句中无动词中心词的情况,整个分句做为前组块,在其中确定前中心词具体位置,其后中心词确定为缺省状态。
步骤201:对输入语句分词数据结构进行预处理。
在一个分句的动词中心词之前组块中,若存在第k个分词为介词,且其之前k-t个分词中存在名词、代词、动词性名词,则在确定前中心词具体位置过程中暂时屏蔽第k个分词之后动词中心词之前的所有分词。
在一个分句的动词中心词之后组块中,若存在第k个分词为介词,且其之前k-t个分词中存在名词、代词、动词性名词,则在确定后中心词具体位置过程中暂时屏蔽第k个分词之后的所有分词。
步骤202:在一个分句的前组块中,确定词性为名词、代词、动词性名词且k值最大的分词为该分句前中心词。
步骤203:在一个分句的后组块中,确定词性为名词、代词、动词性名词且k值最大的分词为该分句后中心词。
对输入语句分词数据结构中的前中心词、动词中心词、后中心词的精确位置建立索引,若分句中缺少前中心词、动词中心词、后中心词中某成份,则进行缺省标记,方便之后调用。
应理解,确定输入语句各分句中前中心词、动词中心词、后中心词精确坐标位置的方法并不唯一,此方法目的主要是从一个分句的全部分词中区分出关键语义单元。
该方法还包括:将动词中心词、前中心词、后中心词对应的相关两词间激活联系词及两词间激活联系类型存入输入语句分词数据结构对应位置。
具体通过以下步骤实现:
调用激活联系词填写模块将动词中心词、前中心词、后中心词对应的相关两词间激活联系词及两词间激活联系类型存入输入语句分词数据结构对应位置。
步骤301:定位输入语句各分句中动词中心词、前中心词、后中心词,写入输入语句分词数据结构中两词间第一激活联系词对应位置,在前中心词所在的分词数据结构第一激活联系词部分填写动词中心词、后中心词对应数据信息到预留位置;同样,在后中心词所在分词数据结构第一激活联系词部分填写动词中心词、前中心词对应数据信息到预留位置。若某分句缺少前中心词、动词中心词、后中心词中的某个,则在输入语句分词数据结构第一激活联系词对应部分标记为缺省状态。
步骤302:若前中心词之前有一般性名词、代词、形容词、副词、动词性修饰词、数量词、区别词、所处词、方位词、时间词、地点词,则将这些词作为前中心词的激活联系词存放进前中心词对应输入语句分词数据结构内激活联系词模块预留位置中;两词间激活联系类型依照词性对应的两词间激活联系类型;以连词标志确定并列联系类型;若句式结构为①主语+“是”+修饰限定词、②主语+修饰限定词,则确定为主系表结构激活联系类型。同一分句内两词间激活联系类型不涉及代词及指称词指代联系类型。
步骤303:若动词中心词之后存在非后中心词的一般性名词、代词、形容词、副词、动词性修饰词、数量词、区别词、所处词、方位词、时间词、地点词,则将这些词作为后中心词的激活联系词存放进后中心词对应输入语句分词数据结构内激活联系词模块预留位置中;两词间激活联系类型依照词性对应的两词间激活联系类型。以连词标志确定并列联系类型。不涉及主系表结构联系类型和代词及指称词指代联系类型。
步骤304:将分句中所处词、方位词、时间词、地点词作为该分句动词中心词的激活联系词存放进动词中心词对应输入语句分词数据结构内激活联系词模块预留位置中;两词间激活联系类型为对应词性的修饰限定联系类型。
所述对通过匹配筛选获得的若干条语句记录并且确定各语句记录的语义置信度,具体为:依次确定各语句记录的初步筛选阶段语义置信度记f1、词法语义置信度f2、句法语义置信度f3,之后求和即为各语句记录的语义置信度F。
具体通过以下步骤实现:
步骤401:各语句记录的初步筛选及其语义置信度f1:
用索引定位输入语句各分句动词中心词及前后中心词位置,以输入语句各分句动词中心词、前后中心词以及它们的对应强度联系词作为检索条件。用数据库内公告信息库一条语句记录中存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句各分句动词中心词、前后中心词及其相关强度联系词进行匹配,即通过匹配输入语句和公告信息库语句记录中动词中心词、前后中心词及其强度联系词,初步筛选出同输入语句有一定语义关联的语句记录。相关强度联系词是指动词中心词、前中心词、后中心词对应的分词数据结构中强度联系类型为一般性联系、同义联系、实例与类联系、实例与命名实体联系、整体与部分联系、实体与属性联系、伴随联系、动词呼应联系、名词对应联系、地理位置强度联系的强度联系词。
公告信息库语句记录初步筛选阶段语义置信度记为f1,表示为计算公式①:
计算公式①:
公式①中,f1表示语句记录初步筛选阶段语义置信度赋值合计值。
若公告信息库语句记录中存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容有与输入语句各分句前后中心词、动词中心词及其各强度联系类型的强度联系词相一致的字符:
n表示公告信息库语句记录初步筛选阶段所有相一致类型的总数。
Lk表示第k种类型相一致时的语义置信度赋值。具体为:公告信息库语句记录存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句动词中心词字符相一致为一种类型;公告信息库语句存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句动词中心词的强度联系类型的强度联系词相一致,一种强度联系类型对应一种类型;公告信息库语句存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句前中心词、后中心词字符相一致为一种类型;公告信息库语句存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句前中心词、后中心词的各种强度联系类型的强度联系词相一致,一种强度联系类型对应一种类型。应注意,本段内容所述的公告信息库语句存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句各分句前中心词、后中心词字符相一致,应剔除前中心词、后中心词为代词的情况。
Sk表示第k种类型相一致的次数,即在公告信息库语句存放前三个分句前中心词、动词中心词、后中心词的字段的字符串内容同输入语句各分句前中心词、后中心词及其各种强度联系类型的强度联系词相一致的类型中,与Lk的值对应的类型所出现的次数。
确定一个语句记录与输入语句相一致的所有前中心词和后中心词字符对应Lk的最小值,将f1值大于该Lk值的公告信息库语句记录作为初步筛选的语句记录序列,对此序列中语句记录进一步进行词法语义置信度赋值计算和句法语义置信度赋值计算。
步骤402:各语句记录的词法语义置信度f2.
在初步筛选过程确定一条公告信息库语句记录满足存入独立的语句记录数据结构约束条件时,进一步调用“分句、分词模块”对该条语句记录进行断句和分词;若输入语句中一个前中心词、后中心词、动词中心词及其对应相关强度联系词与一条语句记录某个分句中的分词相一致,且相一致的词中至少有一个为前中心词或后中心词及其相关强度联系词。在此条件下,根据索引定位输入语句中与语句记录分词匹配成功的前后中心词及动词中心词在输入语句分词数据结构中精确位置。对一个匹配成功的具体分词,进入该分词输入语句分词数据结构内部激活联系部分。遍历该分词所有非动词联系类型的激活联系词,即如图2中存储在分词数据结构激活联系词2至激活联系词5部分的非空元素。根据每个激活联系词在数据结构中的索引信息,定位该分词每个激活联系词的分词数据结构强度联系词部分。(这里的强度联系词限定强度联系类型为:一般性联系、否定联系、同义联系、反义联系、实例与类联系、实例与命名实体联系、因果联系、整体与部分联系、实体与属性联系、施事与动作联系、动作与受事联系、伴随联系、名词对应联系、动词呼应联系、地理位置强度联系)若激活联系词字符本身及其相关强度联系词字符同相匹配的公告库语句记录分句中的分词相一致,则结合该激活联系词对应激活联系类型对语句记录的词法语义置信度进行相应调整。具体词法语义置信度计算方法依照公式②:
计算公式②:
公式②中,f2表示词法语义置信度计算合计值。
所述若语句记录分词同输入语句的动词中心词、前中心词、后中心词及其强度联系词相一致,则用Qji表示第j个相一致的输入语句分词对应输入语句分词数据结构中,第i个两词间激活联系词字符本身及其相关强度联系词字符同语句记录分句相一致的语义置信度赋值,Qji的取值仅取决于激活联系词及其强度联系词同语句记录分词构成相一致的匹配类型。当分词数据结构第i个两词间激活联系词为空时,Qji值记为0。
Hji表示两词间激活联系类型对应权值系数,不同的两词间激活联系类型对应不同的权值系数。当j、i所指的两词间激活联系词不存在时,Hji权值系数值记为0。本技术方案中,Hji所表示的两词间激活联系类型对应权值系数主要涉及修饰限定联系类型、并列联系类型、主系表联系类型。
步骤403:各语句记录的句法语义置信度f3。
分析输入语句和语句记录各分句的句法信息,句法信息主要是判定各分句的句型,分为:非问句、一般疑问句、特殊疑问句。判定句型时设定所有分句的初始缺省句型为非问句;通过检查各分句中的疑问语气词、疑问短语结构、疑问代词以及在分句中所处位置,综合判断各分句的句型。以疑问语气词“吗、么”结尾的分句确定为一般疑问句;将出现“动词”+“不”+“动词”、“是否”+“动词”结构的分句确定为一般疑问句;出现疑问词的分句确定为特殊疑问句,疑问词包括:谁、何、什么,哪儿、哪里,几时、几、多少、怎、怎么、怎的、怎样、怎么样、怎么着、如何、为什么。
以f3表示句法语义置信度赋值,其缺省赋值为0。查找初步筛选得到的语句记录数据结构,若其中一条语句记录中某个分句的前后中心词和动词中心词至少两个与输入语句某分句的前后中心词、动词中心词及其强度联系词相一致,(强度联系类型为同义联系、实例与类联系、实例与命名实体联系、整体与部分联系、实体与属性联系、地理位置强度联系类型的)当且仅当此语句记录分句同与其匹配的输入语句分句中只存在一个分句为疑问句,此时该条语句记录句法语义置信度f3取非零值,且f3取值与相匹配的动词中心词或其强度联系词的联系类型有对应关系。如:当相匹配的词存在动词呼应类型联系时f3取负值。本技术方案暂不涉及对特殊疑问句分句于语句记录分句间更深层次语义相关关系的处理。
步骤404:各语句记录的语句记录语义置信度F。
以F表示一条语句记录的语义置信度,则语义置信度F的计算方法为:
F=f1+f2+f3
将公式①、公式②代入即得到公式③:
公式③:
参数Lk、Qji、Hji的最终确定采用有监督的机器学习方法获得:
构建一个样本语料库对公式③参数进行训练,该样本语料库存储从实际语言环境中采样的输入语句及与其有语义相关性的语句记录,在一个输入语句对应的多个语句记录中,一个语句记录排序靠前表明其与输入语句语义相关性强。以样本语料库中输入语句所关联语句记录的排序关系来训练公式③中参数Lk、Qji、Hji。
第一步:确定Lk的取值集合。给Lk取值集合赋一组初始值,即:(L1=a1、L2=a2、…、Lk=ak),(a1、a2、…、ak)为给定的一组数值。
计算一个输入语句对应各语句记录的f1值,对各语句记录所得f1值按照由大到小顺序排序,将排序结果与样本语料库中该输入语句对应各语句记录排列顺序相比较。f1值相等的语句记录视为并列顺序。找出违反样本语料库中对应排序情况的语句记录,首先忽略语句记录中有疑问句的情况,然后连续调整公式①中Lk的取值,直至按f1值排序的语句记录顺序不再违反样本语料库中对应语句记录的排列顺序。以此步骤重复应用至样本语料库中所有输入语句对应的语句记录,使所有语句记录计算出的f1值,其按由大到小的排列顺序均不违反样本语料库对应语句记录的排列顺序。最终确定公式①中参数Lk的取值集合。
第二步:确定公式②中Qji的取值集合和Hji取值集合。
Qji的取值仅决定于6.2中所述激活联系词及其强度联系词同语句记录分词构成相一致的匹配类型。引入数组Rm(r1、r2、…、rm),数组个数m为全部可构成相一致的匹配类型个数,并在(0,minLk)范围内给Rm数组元素赋初值,其中minLk表示第一步中Lk取值集合的最小值。确定Qji集合中每个构成相一致的匹配类型,并将对应的Rm赋值给Qji,代入公式②参与计算。
Hji为j、i所指向的两词间激活联系类型对应的权值系数。引入数组Wt(w1、w2、…、wt),数组个数t为全部两词间激活联系类型对应的权值系数,其取值集合中各元素缺省取值为1;当对应的激活联系词不存在时,权值系数Wt取值为0。将Wt的取值集合中对应于Hji的元素赋值给Hji,代入公式②参与计算。
计算一个输入语句对应各语句记录的f2值。对于各语句记录,将所得f2值与第一步最终确定的f1值之和即f1+f2,按照由大到小顺序排序,将排序结果与样本语料库中该输入语句对应各语句记录排列顺序相比较。f1+f2的值相等的语句记录视为并列顺序,忽略语句记录中有疑问分句情况的语句记录。通过调整数组Rm(r1、r2、…、rm)、Wt(w1、w2、…、wt)元素取值,进一步调整公式②中参数Qji、Hji在具体计算中的取值,最终调整每个语句记录f1+f2的值,使样本语料库中每个输入语句对应的语句记录f1+f2的值不再违反样本语料库中对应语句记录排序情况。具体操作为:
在(0,minLk)范围内不断调整公式②中Qji的取值,即不断调整数组Rm中元素的取值。最终确定的数组Rm,在样本语料库中每个输入语句对应的语句记录计算f1+f2的值,按照f1+f2值排序每个输入语句对应的语句记录,并将排序结果与样本语料库对应语句记录的排列顺序相比较,应使得在样本语料库整体范围内应达到最优。这里的最优是指最终确定的Rm取值集合(r1、r2、…、rm)中的元素不存在任何可调整改进的其它取值,可以使样本语料库中一些输入语句对应语句记录按f1+f2值排序更接近样本语料中对应语句记录原有排序,而不使样本语料库中其它任何一个输入语句对应语句记录按f1+f2值排序与样本语料库中对应语句记录原有排序的拟合程度变得更差。
对Qji在(0,minLk)范围内取值使得按f1+f2的值排序的语句记录顺序仍无法满足不再违反样本语料库中对应语句记录的排列顺序的情况,则调整j、i所指向的两词间激活联系类型对应的权值系数Hji的取值。直至按f1+f2的值排序的语句记录顺序不再违反样本语料库中对应语句记录的排列顺序。以此步骤重复应用至样本语料库中所有输入语句对应的语句记录,最终确定数组Wt(w1、w2、…、wt)元素取值。
第三步:确定公式③中f3取值集合。以表示f3取值集合,其中Y表示在如6.3所述经初步筛选的一条语句记录满足句法语义置信度f3取非零值的条件时,动词及其强度联系词可构成匹配的所有类型数。给集合(C1、C2、…CY)赋一组初始值。
对于一个输入语句对应的各语句记录,计算各语句记录的f1+f2+f3值,即F值。针对样本语料库中所有输入语句对应的语句记录,通过不断调整f3取值集合(C1、C2、…CY)的值来调整F值,调整后最终确定的F值,应使得在样本语料库中每个输入语句对应的语句记录按F值排序与样本语料库对应语句记录的排列顺序相比较,在样本语料库整体范围内达到最优,这里的最优是指最终确定的f3取值集合(C1、C2、…CY)元素不存在任何可调整改进的空间,使样本语料库中一些输入语句对应语句记录按F值排序更接近样本语料中对应语句记录原有排序,而不使样本语料库中其它任何一个输入语句对应语句记录按F值排序与样本语料库中对应语句记录原有排序的拟合程度变得更差。
各语句记录的语义置信度F确定之后,对语句记录数据结构中各条语句记录最终获得的语义置信度进行排序,语义置信度F最大的语句记录即为输入语句最佳语义匹配结果,将语义置信度值最大的语句记录或值最大的前几项语句记录在用户界面输出显示,作为结果。
步骤501:最后,将输入语句字符串及其分词形式、各分句前后中心词和动词中心词,按公告信息库内各字段对应格式存入公告信息库,由此形成公告信息库语句记录不断丰富的闭环。
实例:
输入语句为:我在钟楼附近丢了一串钥匙。
约定公告信息库中目标语句记录为:
我在开元商场捡到一串钥匙。
公告库中其他有干扰性的语义相关语句记录如:
1、我在钟楼丢了一串钥匙。
2、谁在开元商场丢了一个手机?
3、谁在开元商场捡到一把钥匙?
4、谁丢了一把钥匙?
本技术方案的有益效果即为:能够在公告信息库海量语句记录中,在众多语义相近的干扰语句记录中精确匹配到与输入语句语义相关性最强的语句记录。
第一步:对输入语句进行分句、分词,得到切分结果为:我_在_钟楼_附近_丢_了_一串_钥匙_。(“_”为切分标记)
第二步:构建输入语句分词数据结构,并将输入语句切分结果存入对应位置。
第三步:依据输入语句分词结果,将数据库词库表中该分词的各强度联系词提取并存入输入语句分词数据结构中该分词对应元素的对应位置上。如:“钟楼”一词的强度联系词中包括“开元”一词,其两词间强度联系类型为地理位置强度联系类型;动词“丢”的强度联系词词中包括“捡”、“捡到”、“拾”,其两词间强度联系类型为动词呼应类型联系。
第四步:依据本技术方案数据处理层第4点内容进行处理。
其中按照数据处理层里标题4.1、4.2中规则内容确定输入语句分句的动词中心词为“丢”;前中心词为“我”;后中心词为“钥匙”。
第五步:依据本技术方案数据处理层第5点规则内容,在输入语句分词数据结构中分别对动词中心词、前中心词、后中心词的两词间激活联系模块进行填写,包括输入语句分词数据结构中第一至第五激活联系词对应变量位置的填写。例如:动词中心词“丢”有激活联系词“钟楼”、“附近”,激活联系类型为修饰限定类型。
对动词中心词、前中心词、后中心词在分句中位置建立单独索引数据结构进行标记,方便调用。
第六步:检索公告信息库中语句记录,在本实施例中简化为检索目标语句和几个干扰语句记录。依据6.1中规则内容进行语句记录初步筛选;依据6.4中公式③计算各语句记录语义置信度赋值F。这里公式③中各参数的取值集合具体由6.4中对样本语料库进行有监督的机器学习方法获得,涉及到本实施例的参数集合为:Lk(a1、a2、…、ak)、Rm(r1、r2、…、rm)、Wt(w1、w2、…、wt)、f3(C1、C2、…CY)。将经过样本语料库验证的公式③中各参数集合元素取值代入公式③中逐一计算各语句记录语义置信度取值。具体计算过程依照本技术方案数据处理层第6点中内容操作,本实施例中不在赘述。
本实例中公告库各语句记录按照计算所得语义置信度进行排序的最终结果为:
将排序最靠前即语义置信度最高的语句记录“我在开元商场捡了一串钥匙。”作为结果输出用户界面。
第七步:对输入语句“我在钟楼附近丢了一串钥匙。”进行分句分词处理,确定前后中心词和动词中心词,以对应格式存入公告信息库,作为公告信息库中一条新的语句记录。由此形成数据信息不断自我更新的闭环。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (9)
1.一种汉语自然语言对话的语义关联与匹配方法,其特征在于,该方法为:对一次采集的汉语对话语句进行分词和分句,将各分句分词结果以及分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果,最后,将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录。
2.根据权利要求1所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述输入语句分词数据结构是每个分词构建对应子结构的集合,每个子结构由三组数据组成,第一组用于存放分词字符串、词性,第二组用于存放第一至第五强度联系词的字符串、词性、强度联系类型、强度联系值,第三组用于存放两词间第一激活联系词对应字符串变量,若该分词为分句中前中心词,则第一激活联系词位置存放后中心词字符串、两词间激活联系类型、动词中心词字符串;若该分词为分句中后中心词,则第一激活联系词位置存放前中心词字符串、两词间激活联系类型、动词中心词字符串;其他情况第一激活联系词对应位置均为空,第三组还用于存放两词间第二至第五激活联系词对应变量,具体为存放两词间激活联系词字符串、激活联系类型、激活联系词在输入语句分词数据结构中坐标位置信息。
3.根据权利要求1或2所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述将各分句分词结果以及分词对应的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在构建输入语句分词数据结构过程中,该方法还包括在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词在输入语句分词数据结构中的准确位置。
4.根据权利要求3所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述确定各分句的动词中心词在输入语句分词数据结构中的准确位置,具体为:若一个分句中无动词,则该分句的动词中心词标记为缺省状态;若一个分句中仅存在一个动词,则确定该动词即为动词中心词;若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置。
5.根据权利要求4所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置,具体为:根据条件调整输入语句分词数据结构中各分词的词性,加入在数据处理环节存在的临时词性标记,检查输入语句各分句数据结构中词性和分词字符串信息,若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k-1个分词字符串为助词,则将该分句的输入语句分词数据结构中第k个分词词性调整为20动词性名词;若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k+1个分词字符串为助词,则将该分句的输入语句分词数据结构中第k个分词词性调整为24动词性修饰词;在对各分词词性调整后,若该分句第K个分词为动词、及物动词或不及物动词,其后第k+t个分词为动词,t为自然数,且第k个分词与k+t个分词之间无名词、代词,确定该分句第k+t个分词为动词中心词。
6.根据权利要求5所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述确定各分句的前中心词、后中心词在输入语句分词数据结构中的准确位置,具体为:以输入语句各分句的动词中心词为界,将分句划分成前后两个组块,在动词中心词之前的组块中确定前中心词具体位置;在动词中心词之后的组块中确定后中心词具体位置;对于输入语句中无动词中心词的情况,整个分句做为前组块,在其中确定前中心词具体位置,其后中心词确定为缺省状态。
7.根据权利要求6所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,该方法还包括:将动词中心词、前中心词、后中心词对应的相关两词间激活联系词及两词间激活联系类型存入输入语句分词数据结构对应位置。
8.根据权利要求7所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述对通过匹配筛选获得的若干条语句记录并且确定各语句记录的语义置信度,具体为:依次确定各语句记录的初步筛选阶段语义置信度记f1、词法语义置信度f2、句法语义置信度f3,之后求和即为各语句记录的语义置信度F,即通过计算公式计算得到一条语句记录对于输入语句的语义置信度F值,其中计算公式中参数是通过样本语料库中输入语句与其后的语义相关语句记录的排序情况,以有监督的机器学习方法确定。
9.根据权利要求1所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录,具体为:将输入语句字符串及其分词形式、各分句前后中心词和动词中心词,按公告信息库内各字段对应格式存入公告信息库,由此形成公告信息库语句记录不断丰富的闭环。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710593854.9A CN107818078B (zh) | 2017-07-20 | 2017-07-20 | 汉语自然语言对话的语义关联与匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710593854.9A CN107818078B (zh) | 2017-07-20 | 2017-07-20 | 汉语自然语言对话的语义关联与匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818078A true CN107818078A (zh) | 2018-03-20 |
CN107818078B CN107818078B (zh) | 2021-08-17 |
Family
ID=61600850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710593854.9A Active CN107818078B (zh) | 2017-07-20 | 2017-07-20 | 汉语自然语言对话的语义关联与匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818078B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783820A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
CN111199157A (zh) * | 2018-11-19 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 一种文本数据处理方法及其装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN101937430A (zh) * | 2010-09-03 | 2011-01-05 | 清华大学 | 一种汉语句子中事件句式的抽取方法 |
US20110213767A1 (en) * | 2010-02-26 | 2011-09-01 | Marcus Fontoura | System and Method for Automatic Matching of Contracts Using a Fixed-Length Predicate Representation |
CN102945230A (zh) * | 2012-10-17 | 2013-02-27 | 刘运通 | 一种基于语义匹配驱动的自然语言知识获取方法 |
CN103440236A (zh) * | 2013-09-16 | 2013-12-11 | 中央民族大学 | 藏语句法和语义角色联合标注方法 |
-
2017
- 2017-07-20 CN CN201710593854.9A patent/CN107818078B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
US20110213767A1 (en) * | 2010-02-26 | 2011-09-01 | Marcus Fontoura | System and Method for Automatic Matching of Contracts Using a Fixed-Length Predicate Representation |
CN101937430A (zh) * | 2010-09-03 | 2011-01-05 | 清华大学 | 一种汉语句子中事件句式的抽取方法 |
CN102945230A (zh) * | 2012-10-17 | 2013-02-27 | 刘运通 | 一种基于语义匹配驱动的自然语言知识获取方法 |
CN103440236A (zh) * | 2013-09-16 | 2013-12-11 | 中央民族大学 | 藏语句法和语义角色联合标注方法 |
Non-Patent Citations (1)
Title |
---|
陈丽江: "汉语真实文本的语义角色标注", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199157A (zh) * | 2018-11-19 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 一种文本数据处理方法及其装置 |
CN111199157B (zh) * | 2018-11-19 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 一种文本数据处理方法及其装置 |
CN109783820A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107818078B (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
CN109408642B (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN101566998B (zh) | 一种基于神经网络的中文问答系统 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN102708100B (zh) | 挖掘相关实体词的关系关键词的方法和装置及其应用 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
WO2021073116A1 (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN103106287B (zh) | 一种用户检索语句的处理方法及系统 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN103886034A (zh) | 一种建立索引及匹配用户的查询输入信息的方法和设备 | |
CN106909655A (zh) | 基于产生式别名挖掘的知识图谱实体发现和链接方法 | |
CN106649272A (zh) | 一种基于混合模型的命名实体识别方法 | |
CN107291886A (zh) | 一种基于增量聚类算法的微博话题检测方法及系统 | |
CN106598950A (zh) | 一种基于混合层叠模型的命名实体识别方法 | |
CN109145287B (zh) | 印尼语单词检错纠错方法及系统 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN106649823A (zh) | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 | |
CN106886512A (zh) | 文章分类方法和装置 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN107871002A (zh) | 一种基于指纹融合的跨语言剽窃检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |