CN107562731A - 一种基于疑问语义的自然语言语义计算的方法及装置 - Google Patents

一种基于疑问语义的自然语言语义计算的方法及装置 Download PDF

Info

Publication number
CN107562731A
CN107562731A CN201710866774.6A CN201710866774A CN107562731A CN 107562731 A CN107562731 A CN 107562731A CN 201710866774 A CN201710866774 A CN 201710866774A CN 107562731 A CN107562731 A CN 107562731A
Authority
CN
China
Prior art keywords
query
semantic
interrogative
character
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710866774.6A
Other languages
English (en)
Other versions
CN107562731B (zh
Inventor
刘战雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710866774.6A priority Critical patent/CN107562731B/zh
Publication of CN107562731A publication Critical patent/CN107562731A/zh
Application granted granted Critical
Publication of CN107562731B publication Critical patent/CN107562731B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种基于疑问语义的自然语言语义计算方法及装置,设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;根据所述疑问对象或所述疑问运算符的性质和规则,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,作为一个基础的语义计算方法,本发明实施例可以有效的解决常见的自然语言处理问题,尤其是在语句的切分标注、自然语言搜索、机器翻译、人机问答等领域具有较高的使用价值。

Description

一种基于疑问语义的自然语言语义计算的方法及装置
技术领域
本发明实施例涉及信息处理的技术领域,尤其涉及一种基于疑问语义的自然语言语义计算的方法及装置。
背景技术
自然语言处理是研究人人、人机交际中语言问题的一门学科。在自然语言处理中,语义计算是通过计算机解释自然语言中各级单位即字、词素、词、词组、短语、句子、句群、段落、篇章等的意义,所关心的重点是这个语言单位到底说了什么。在目前技术中主要有:义素分析法、语义场、语义网络、Montague语法、优选语义学、概念依存理论、意义-文本理论等方法。
在目前技术中,语义计算的主要的缺陷表现为两方面:一方面侧重于利用统计方法进行字符运算,很少或者没有涉及语义问题;另一方面失之于语义概念抽象或规则复杂,利用计算机技术难以实现或算法复杂度高,缺乏实用性。
发明内容
本发明实施例的目的在于提出一种基于疑问语义的自然语言语义计算的方法及装置,旨在解决如何建立简单易懂的语义划分规则对自然语言进行处理的问题。
为达此目的,本发明实施例采用以下技术方案:
设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;
根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;
根据所述疑问对象或所述疑问运算符的性质和规则,结合所述疑问语义句模库、统计方法和疑问语义树,实现待处理语句的疑问语义计算。
优选地,所述设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词,包括:
根据不同的语义场景或者不同的应用场景设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词。
优选地,所述根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符,包括:
若所述语义范畴为人,则与人对应的疑问代词为“谁”;
若所述语义范畴为事物,则与事物对应的疑问代词为“什么”;
若所述语义范畴为动作,则与所述事物对应的疑问代词为“怎么”,与所述“怎么”疑问语义等同的其他疑问代词为怎么样、怎样、怎、怎么着、怎的和如何;
若所述语义范畴为时间,则与所述时间对应的疑问代词为几时,与所述“几时”疑问语义等同的其他疑问代词为多会儿、哪会儿和多咱;
若所述语义范畴为地点场所,则与所述地点场所对应的疑问代词为哪里,与所述“哪里”疑问语义等同的其他疑问代词为哪和哪儿;
若所述语义范畴为数目数量,则与所述数目数量对应的疑问代词为多少,与所述多少等同的其他疑问代词为几和多;
若所述语义范畴为虚词,则将所述语义范畴切分并标注为疑问运算符。
优选地,所述方法还包括:
将搜索字符通过预先设置的算法划分为预先设置的疑问对象;
根据划分后的疑问代词搜索预先存储的字符;
若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
优选地,所述方法还包括:
接收用户输入的搜索字符;
根据所述搜索字符和相似度计算获取预先存储的字符模型;
根据所述预先存储的字符模块划分为预先设置的疑问对象;
根据划分后的疑问代词搜索预先存储的字符;
若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
一种基于疑问语义的自然语言语义计算的装置,所述装置包括:
设计模块,用于设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;
标注模块,用于根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;
计算模块,用于根据所述疑问对象或所述疑问运算符的性质和规则,结合所述疑问语义句模库、统计方法和疑问语义树,实现待处理语句的疑问语义计算。
优选地,所述设计模块,包括:
设计单元,用于根据不同的语义场景或者不同的应用场景设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词。
优选地,所述标注模块,包括:
第一标注单元,用于若所述语义范畴为人,则与人对应的疑问代词为“谁”;
第二标注单元,用于若所述语义范畴为事物,则与事物对应的疑问代词为“什么”;
第三标注单元,用于若所述语义范畴为动作,则与所述事物对应的疑问代词为“怎么”,与所述“怎么”疑问语义等同的其他疑问代词为怎么样、怎样、怎、怎么着、怎的和如何;
第四标注单元,用于若所述语义范畴为时间,则与所述时间对应的疑问代词为几时,与所述“几时”疑问语义等同的其他疑问代词为多会儿、哪会儿和多咱;
第五标注单元,用于若所述语义范畴为地点场所,则与所述地点场所对应的疑问代词为哪里,与所述“哪里”疑问语义等同的其他疑问代词为哪和哪儿;
第六标注单元,用于若所述语义范畴为数目数量,则与所述数目数量对应的疑问代词为多少,与所述多少等同的其他疑问代词为几和多;
第七标注单元,用于若所述语义范畴为虚词,则将所述语义范畴切分并标注为疑问运算符。
优选地,所述装置还包括:
第一划分模块,用于将搜索字符通过预先设置的算法划分为预先设置的疑问对象;
第一搜索模块,用于根据划分后的疑问代词搜索预先存储的字符;
第一显示模块,用于若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
优选地,接收模块,用于接收用户输入的搜索字符;
获取模块,用于根据所述搜索字符和相似度计算获取预先存储的字符模型;
第二划分模块,用于根据所述预先存储的字符模块划分为预先设置的疑问对象;
第二搜索模块,用于根据划分后的疑问代词搜索预先存储的字符;
第二显示模块,用于若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
本发明实施例通过设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;根据所述疑问对象或所述疑问运算符的性质和规则,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,实现待处理语句的疑问语义计算,作为一个基础的语义计算方法,本发明实施例可以有效的解决常见的自然语言处理问题,尤其是在语句的切分标注、自然语言搜索、机器翻译、人机问答等领域具有较高的使用价值。
附图说明
图1是本发明实施例基于疑问语义的自然语言语义计算的方法第一实施例的流程示意图;
图2是本发明实施例基于疑问语义的自然语言语义计算的方法第二实施例的流程示意图;
图3是本发明实施例基于疑问语义的自然语言语义计算的方法第三实施例的流程示意图;
图4是本发明实施例基于疑问语义的自然语言语义计算的装置的功能模块示意图;
图5是本发明实施例设计模块401的功能模块示意图;
图6是本发明实施例标注模块402的功能模块示意图;
图7是本发明实施例基于疑问语义的自然语言语义计算的装置的功能模块示意图;
图8是本发明实施例基于疑问语义的自然语言语义计算的装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
参考图1,图1是本发明实施例基于疑问语义的自然语言语义计算的方法第一实施例的流程示意图。
在实施例一中,所述基于疑问语义的自然语言语义计算的方法包括:
步骤101,设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;
优选地,所述设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词,包括:
根据不同的语义场景或者不同的应用场景设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词。
步骤102,根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;
优选地,所述根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符,包括:
若所述语义范畴为人,则与人对应的疑问代词为“谁”;
若所述语义范畴为事物,则与事物对应的疑问代词为“什么”;
若所述语义范畴为动作,则与所述事物对应的疑问代词为“怎么”,与所述“怎么”疑问语义等同的其他疑问代词为怎么样、怎样、怎、怎么着、怎的和如何;
若所述语义范畴为时间,则与所述时间对应的疑问代词为几时,与所述“几时”疑问语义等同的其他疑问代词为多会儿、哪会儿和多咱;
若所述语义范畴为地点场所,则与所述地点场所对应的疑问代词为哪里,与所述“哪里”疑问语义等同的其他疑问代词为哪和哪儿;
若所述语义范畴为数目数量,则与所述数目数量对应的疑问代词为多少,与所述多少等同的其他疑问代词为几和多;
若所述语义范畴为虚词,则将所述语义范畴切分并标注为疑问运算符。
具体的,现代汉语中的疑问代词是一个相对封闭的词类。现代汉语中的疑问代词从使用频率上来看,常见的疑问代词有:什么、怎么、谁、几、哪、为什么、多少、哪儿、怎么样、何、哪里、如何、多、干吗;非常用的疑问代词:怎样、怎、怎么着、为何、怎的、几时、哪会儿、多会儿、多咱。
鉴于以下两点:
一个是某些方言中的疑问代词,如:啥、弄啥、干嘛、干吗、咋办、咋整等,其基本疑问语义可用现代汉语中的疑问代词来替换;另一个是组合语义的疑问代词或短语,如:什么时候、什么地方、什么人、什么事、什么东西、什么样子、什么样的、什么数目、什么数量、什么高度、什么重量、什么程度、什么情况、何人、何时、何处、何物、为何等,其基本疑问语义均能为现代汉语中的疑问代词直接或组合替代,因此不再单独罗列到疑问代词集。
将疑问代词的基本疑问语义限定在范畴层面进行分析后,可知其能对:人、事物、时间、处所、数量、方式、性状、原因等范畴内的对象进行疑问。在疑问代词的分类上,我们采取求同存异(动态的抓大放小)的权衡策略,即寻求其在疑问范畴层面上的一致之处(权值大),而忽略其语义或用法上的细微差异之处(权值小)。对于疑问代词,当其疑问范畴一致时,我们将其视为一类。如:“哪儿、哪里”可对表达地点类的字符块提出疑问,因此视为同类。
对于“什么”这一特殊疑问代词,由于其可以对任何字符块提出“未知”疑问,“未知”对于了解字符块意义的贡献有限,疑问对象十分宽泛,因此我们这里采取的是缩小其疑问范畴,将其作为对表达事物类语义的字符块进行提问的疑问代词。鉴于其能跟多类字符块组合起来表达某一特定疑问范畴,1)其组合语义可被某单一疑问代词等价替换,如:“什么地方”可被“哪里”替换;2)涉及范畴内对象的深层次语义分析,如:“什么高度、什么宽度、什么长度”等,对于我们来说,在疑问范畴层面上属于数量范畴内的深层次语义,因此在范畴层面暂不处理;3)要么涉及范畴内对象的综合语义分析,如:什么情况、什么原因等,此是疑问对象多个范畴层面的综合语义结果,因此在范畴层面暂不处理。
为了利用计算机理解并处理语义,在限于范畴层面考虑疑问代词的语义时,我们从疑问语义角度入手,利用疑问代词集中的疑问代词标注疑问对象(或它的各个义项)所归属的语义范畴,即:可用哪种疑问词对疑问对象进行提问。
根据疑问代词的疑问范畴来设计多种疑问语义标注集,以便对疑问对象进行标注,例如以下为所设计的多个多层次疑问语义标注集中具有代表性的一个:
形式化表示为:Y={谁,什么,怎样,几时,哪里,多少,……}
具体的,参考如下表1:
表1
在自然语言处理中,语义计算是通过计算机解释自然语言中各级单位的意义,如:字、词、词组、短语、句子、句群、段落、篇章等的意义。为了处理方便,我们假定只考虑句子及组成句子的各级单位的意义。在各级单位中,假设一个有实在意义的字符块,它的意义或某个义项的意义一定属于某一或某些范畴,并且能被某一个或某些疑问代词所疑问时,称这个字符块为疑问对象。对于一些没有实在意义或无法被疑问的字符块,我们称之为疑问运算符。如:一些常见的实词为疑问对象,而一些常见的虚词为疑问运算符。每个疑问对象都作为一个疑问点,可以用于检索、人机问答以及机器翻译。
根据疑问对象的特征或称为性质、属性将其分为若干类别,并制定若干规则。
疑问对象的若干属性包含但不局限于:
疑问对象或其义项所归属的疑问范畴,即用哪些疑问代词标注该疑问对象;
疑问对象与疑问对象的搭配属性;
疑问对象与疑问运算符的搭配属性;
疑问对象可支配的疑问对象数目(分为一元、二元、三元等);
疑问对象的作用范围与运算方向;
同类疑问对象间、非同类疑问对象间的合并运算;
疑问对象间的语义侧重点;
疑问对象的若干运算规则(包含但不局限于):
分解运算;
复合疑问对象被分解为若干疑问对象;
合并运算;
多个疑问对象合并为一个疑问对象;
顺序变换运算;
某些疑问对象的顺序能够改变次序而保持等价语义;
分解运算:
在某些疑问对象上实施递归的疑问语义处理。
具体的,在句子及组成句子的各级单位中,存在非可被疑问的部分或某个义项即非疑问对象,对于这一部分可分为两类:
多数虚词,一般不作为疑问对象,在本发明中,称之为疑问运算符;
标点符号,由于其数量、用法有限,暂不考虑或特殊处理;
对于疑问运算符,根据其特征或称为性质分为若干类别,并根据疑问运算符的特征,制定出若干规则;
疑问运算符的若干属性包含但不局限于:
疑问运算符可支配的疑问对象;
根据运算符可支配的疑问对象数目(分为一元、二元、三元等);
运算符的作用范围;
运算符的运算方向从左到右,还是右到左。如“被”和“把”的一类语义句子中如考虑到方向问题,则认为:谁被什么怎么了,等价于:什么把谁怎么了。
疑问运算符的若干运算规则包含但不局限于:
分解运算:
疑问对象被分解为疑问对象和运算符。
例如:疑问对象:“我和你”可以被“谁”疑问,同时作为一个复合的疑问对象,其可以分解为:疑问对象:“我”、“你”,以及疑问运算符:“和”。
合并运算:
疑问对象与运算符合并为新的疑问对象。
例如:同上例,疑问对象:“我”、“你”,以及疑问运算符:“和”。
我/谁和/疑问运算符你/谁
合并运算后:
我和你/谁
顺序变换运算:
某些疑问对象的顺序能够改变次序而保持等价语义。
例如:同上例,疑问对象:“我”、“你”,以及疑问运算符:“和”。
我和你/谁
顺序变换后,语义保持不变:
你和我/谁
递归运算:
在某些疑问对象上实施递归的疑问语义处理。
步骤103,根据所述疑问对象或所述疑问运算符的性质和规则,结合所述疑问语义句模库、统计方法和疑问语义树,实现待处理语句的疑问语义计算。
具体的,在对句子的字符块进行标注后,我们利用疑问对象性质、运算符性质以及运算规则对其进行处理,进而建立出疑问语义树。将句子中的疑问对象作为疑问点,利用疑问点可以用来回答相应的搜索、翻译或人机对话。疑问点对应疑问语义树中的节点。对于疑问语义树,我们用其节点表示字符块,用边表示标注符号。在这里,我们可以通过分解与合并来操作疑问语义树,一个是将未标注的自然语言语句拆分为疑问语义树,一个是将已标注的自然语言语句合成为疑问语义树。
通过统计疑问语义树及疑问语义子树,统计出相应的疑问语义句模,进而建立疑问语义句模库,其主要作用可以在实现疑问语义计算过程中,用于驱动语义规则。疑问语义句模库的作用有:
用来为合成句子的语义驱动库;
用来作为合成句子的语义驱动库;
用来切分和标注字符块及义项;
用来切分和标注未登录词;
用来检索句子的疑问点;
用来合成疑问语义树;
用来拆分疑问语义树;
用来计算自然语言语句的语义相似度;
例如:明天我和你一块去北京。
存储后为:明天/几时我和你/谁一块去/怎样北京/哪里。
步骤104,接收用户输入的搜索字符;根据所述搜索字符和相似度计算获取预先存储的字符模型;根据所述预先存储的字符模块划分为预先设置的疑问对象;根据划分后的疑问代词搜索预先存储的字符;若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
本发明实施例通过设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;根据所述疑问对象或所述疑问运算符的性质和规则,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,实现待处理语句的疑问语义计算,作为一个基础的语义计算方法,本发明实施例可以有效的解决常见的自然语言处理问题,尤其是在语句的切分标注、自然语言搜索、机器翻译、人机问答等领域具有较高的使用价值。
实施例二
参考图2,图2是本发明实施例基于疑问语义的自然语言语义计算的方法第二实施例的流程示意图。
在实施例一的基础上,所述基于疑问语义的自然语言语义计算的方法还包括:
步骤104,将搜索字符通过预先设置的算法划分为预先设置的疑问对象;
步骤105,根据划分后的疑问代词搜索预先存储的字符;
步骤106,若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
具体的,例如,若用户输入几时、谁、怎样、哪儿,则根据预先存储的明天/几时我和你/谁一块去/怎样北京/哪里,可以搜索出明天我和你一块去北京。
实施例三
参考图3,图3是本发明实施例基于疑问语义的自然语言语义计算的方法第三实施例的流程示意图。
在实施例一的基础上,所述方法还包括:
步骤107,接收用户输入的搜索字符;
步骤108,根据所述搜索字符和相似度计算获取预先存储的字符模型;
步骤109,根据所述预先存储的字符模块划分为预先设置的疑问对象;
步骤110,根据划分后的疑问代词搜索预先存储的字符;
步骤111,若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
具体的,在处理自然语言句子时,由于对每个句子建立了相应的疑问语义树,各层子树语义间相对独立,进而实现并行计算。由于各层子树对句子的疑问语义抽象层次不同,进行计算时,可计算最低等级的字符块、也可计算抽象度递增的各层子树,进而放大或缩小了搜索空间,实现匹配精度的有效控制。
对于具体句子的计算,可转换为与疑问语义句模库中句模型的匹配与分解问题,进而计算出语义相似度。步骤描述:
输入句子S;
对句子S进行疑问语义标注;
根据句子中疑问运算符和疑问对象,进行分级计算;
分级计算结果,根据疑问点,转化为疑问语义树;
与疑问句模匹配,计算出各级的疑问语义句式;
为后续处理做好准备,处理结束。
实施例四
参考图4,图4是本发明实施例基于疑问语义的自然语言语义计算的装置的功能模块示意图。
在实施例四中,所述基于疑问语义的自然语言语义计算的装置包括:
设计模块401,用于设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;
优选地,参考图5,图5是本发明实施例设计模块401的功能模块示意图。所述设计模块401,包括:
设计单元501,用于根据不同的语义场景或者不同的应用场景设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词。
标注模块402,用于根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;
优选地,参考图6,图6是本发明实施例标注模块402的功能模块示意图。所述标注模块402,包括:
第一标注单元601,用于若所述语义范畴为人,则与人对应的疑问代词为“谁”;
第二标注单元602,用于若所述语义范畴为事物,则与事物对应的疑问代词为“什么”;
第三标注单元603,用于若所述语义范畴为动作,则与所述事物对应的疑问代词为“怎么”,与所述“怎么”疑问语义等同的其他疑问代词为怎么样、怎样、怎、怎么着、怎的和如何;
第四标注单元604,用于若所述语义范畴为时间,则与所述时间对应的疑问代词为几时,与所述“几时”疑问语义等同的其他疑问代词为多会儿、哪会儿和多咱;
第五标注单元605,用于若所述语义范畴为地点场所,则与所述地点场所对应的疑问代词为哪里,与所述“哪里”疑问语义等同的其他疑问代词为哪和哪儿;
第六标注单元606,用于若所述语义范畴为数目数量,则与所述数目数量对应的疑问代词为多少,与所述多少等同的其他疑问代词为几和多;
第七标注单元607,用于若所述语义范畴为虚词,则将所述语义范畴切分并标注为疑问运算符。
具体的,现代汉语中的疑问代词是一个相对封闭的词类。现代汉语中的疑问代词从使用频率上来看,常见的疑问代词有:什么、怎么、谁、几、哪、为什么、多少、哪儿、怎么样、何、哪里、如何、多、干吗;非常用的疑问代词:怎样、怎、怎么着、为何、怎的、几时、哪会儿、多会儿、多咱。
鉴于以下两点:
一个是某些方言中的疑问代词,如:啥、弄啥、干嘛、干吗、咋办、咋整等,其基本疑问语义可用现代汉语中的疑问代词来替换;另一个是组合语义的疑问代词或短语,如:什么时候、什么地方、什么人、什么事、什么东西、什么样子、什么样的、什么数目、什么数量、什么高度、什么重量、什么程度、什么情况、何人、何时、何处、何物、为何等,其基本疑问语义均能为现代汉语中的疑问代词直接或组合替代,因此不再单独罗列到疑问代词集。
将疑问代词的基本疑问语义限定在范畴层面进行分析后,可知其能对:人、事物、时间、处所、数量、方式、性状、原因等范畴内的对象进行疑问。在疑问代词的分类上,我们采取求同存异(动态的抓大放小)的权衡策略,即寻求其在疑问范畴层面上的一致之处(权值大),而忽略其语义或用法上的细微差异之处(权值小)。对于疑问代词,当其疑问范畴一致时,我们将其视为一类。如:“哪儿、哪里”可对表达地点类的字符块提出疑问,因此视为同类。
对于“什么”这一特殊疑问代词,由于其可以对任何字符块提出“未知”疑问,“未知”对于了解字符块意义的贡献有限,疑问对象十分宽泛,因此我们这里采取的是缩小其疑问范畴,将其作为对表达事物类语义的字符块进行提问的疑问代词。鉴于其能跟多类字符块组合起来表达某一特定疑问范畴,1)其组合语义可被某单一疑问代词等价替换,如:“什么地方”可被“哪里”替换;2)涉及范畴内对象的深层次语义分析,如:“什么高度、什么宽度、什么长度”等,对于我们来说,在疑问范畴层面上属于数量范畴内的深层次语义,因此在范畴层面暂不处理;3)要么涉及范畴内对象的综合语义分析,如:什么情况、什么原因等,此是疑问对象多个范畴层面的综合语义结果,因此在范畴层面暂不处理。
为了利用计算机理解并处理语义,在限于范畴层面考虑疑问代词的语义时,我们从疑问语义角度入手,利用疑问代词集中的疑问代词标注疑问对象(或它的各个义项)所归属的语义范畴,即:可用哪种疑问词对疑问对象进行提问。
根据疑问代词的疑问范畴来设计多种疑问语义标注集,以便对疑问对象进行标注,例如以下为所设计的多个多层次疑问语义标注集中具有代表性的一个:
形式化表示为:Y={谁,什么,怎样,几时,哪里,多少,……}
具体的,参考如下表1:
表1
在自然语言处理中,语义计算是通过计算机解释自然语言中各级单位的意义,如:字、词、词组、短语、句子、句群、段落、篇章等的意义。为了处理方便,我们假定只考虑句子及组成句子的各级单位的意义。在各级单位中,假设一个有实在意义的字符块,它的意义或某个义项的意义一定属于某一或某些范畴,并且能被某一个或某些疑问代词所疑问时,称这个字符块为疑问对象。对于一些没有实在意义或无法被疑问的字符块,我们称之为疑问运算符。如:一些常见的实词为疑问对象,而一些常见的虚词为疑问运算符。每个疑问对象都作为一个疑问点,可以用于检索、人机问答以及机器翻译。
根据疑问对象的特征或称为性质、属性将其分为若干类别,并制定若干规则。
疑问对象的若干属性包含但不局限于:
疑问对象或其义项所归属的疑问范畴,即用哪些疑问代词标注该疑问对象;
疑问对象与疑问对象的搭配属性;
疑问对象与疑问运算符的搭配属性;
疑问对象可支配的疑问对象数目(分为一元、二元、三元等);
疑问对象的作用范围与运算方向;
同类疑问对象间、非同类疑问对象间的合并运算;
疑问对象间的语义侧重点;
疑问对象的若干运算规则(包含但不局限于):
分解运算;
复合疑问对象被分解为若干疑问对象;
合并运算;
多个疑问对象合并为一个疑问对象;
顺序变换运算;
某些疑问对象的顺序能够改变次序而保持等价语义;
分解运算:
在某些疑问对象上实施递归的疑问语义处理。
具体的,在句子及组成句子的各级单位中,存在非可被疑问的部分或某个义项即非疑问对象,对于这一部分可分为两类:
多数虚词,一般不作为疑问对象,在本发明中,称之为疑问运算符;
标点符号,由于其数量、用法有限,暂不考虑或特殊处理;
对于疑问运算符,根据其特征或称为性质分为若干类别,并根据疑问运算符的特征,制定出若干规则;
疑问运算符的若干属性包含但不局限于:
疑问运算符可支配的疑问对象;
根据运算符可支配的疑问对象数目(分为一元、二元、三元等);
运算符的作用范围;
运算符的运算方向从左到右,还是右到左。如“被”和“把”的一类语义句子中如考虑到方向问题,则认为:谁被什么怎么了,等价于:什么把谁怎么了。
疑问运算符的若干运算规则包含但不局限于:
分解运算:
疑问对象被分解为疑问对象和运算符。
例如:疑问对象:“我和你”可以被“谁”疑问,同时作为一个复合的疑问对象,其可以分解为:疑问对象:“我”、“你”,以及疑问运算符:“和”。
合并运算:
疑问对象与运算符合并为新的疑问对象。
例如:同上例,疑问对象:“我”、“你”,以及疑问运算符:“和”。
我/谁和/疑问运算符你/谁
合并运算后:
我和你/谁
顺序变换运算:
某些疑问对象的顺序能够改变次序而保持等价语义。
例如:同上例,疑问对象:“我”、“你”,以及疑问运算符:“和”。
我和你/谁
顺序变换后,语义保持不变:
你和我/谁
递归运算:
在某些疑问对象上实施递归的疑问语义处理。
计算模块403,用于根据所述疑问对象或所述疑问运算符的性质和规则,结合所述疑问语义句模库、统计方法和疑问语义树,实现待处理语句的疑问语义计算。
具体的,在对句子的字符块进行标注后,我们利用疑问对象性质、运算符性质以及运算规则对其进行处理,进而建立出疑问语义树。将句子中的疑问对象作为疑问点,利用疑问点可以用来回答相应的搜索、翻译或人机对话。疑问点对应疑问语义树中的节点。对于疑问语义树,我们用其节点表示字符块,用边表示标注符号。在这里,我们可以通过分解与合并来操作疑问语义树,一个是将未标注的自然语言语句拆分为疑问语义树,一个是将已标注的自然语言语句合成为疑问语义树。
通过统计疑问语义树及疑问语义子树,统计出相应的疑问语义句模,进而建立疑问语义句模库,其主要作用可以在实现疑问语义计算过程中,用于驱动语义规则。疑问语义句模库的作用有:
用来为合成句子的语义驱动库;
用来作为合成句子的语义驱动库;
用来切分和标注字符块及义项;
用来切分和标注未登录词;
用来检索句子的疑问点;
用来合成疑问语义树;
用来拆分疑问语义树;
用来计算自然语言语句的语义相似度;
例如:明天我和你一块去北京。
存储后为:明天/几时我和你/谁一块去/怎样北京/哪里。
本发明实施例通过设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;根据所述疑问对象或所述疑问运算符的性质和规则,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,实现待处理语句的疑问语义计算,作为一个基础的语义计算方法,本发明实施例可以有效的解决常见的自然语言处理问题,尤其是在语句的切分标注、自然语言搜索、机器翻译、人机问答等领域具有较高的使用价值。
实施例五
参考图7,图7是本发明实施例基于疑问语义的自然语言语义计算的装置的功能模块示意图。
在实施例三的基础上,所述装置还包括:
第一划分模块404,用于将搜索字符通过预先设置的算法划分为预先设置的疑问对象;
第一搜索模块405,用于根据划分后的疑问代词搜索预先存储的字符;
第一显示模块406,用于若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
具体的,例如,若用户输入几时、谁、怎样、哪儿,则根据预先存储的明天/几时我和你/谁一块去/怎样北京/哪里,可以搜索出明天我和你一块去北京。
实施例六
参考图8,图8是本发明实施例基于疑问语义的自然语言语义计算的装置的功能模块示意图。
在实施例四的基础上中,所述装置还包括:
接收模块407,用于接收用户输入的搜索字符;
获取模块408,用于根据所述搜索字符和相似度计算获取预先存储的字符模型;
第二划分模块409,用于根据所述预先存储的字符模块划分为预先设置的疑问对象;
第二搜索模块410,用于根据划分后的疑问代词搜索预先存储的字符;
第二显示模块411,用于若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
具体的,在处理自然语言句子时,由于对每个句子建立了相应的疑问语义树,各层子树语义间相对独立,进而实现并行计算。由于各层子树对句子的疑问语义抽象层次不同,进行计算时,可计算最低等级的字符块、也可计算抽象度递增的各层子树,进而放大或缩小了搜索空间,实现匹配精度的有效控制。
对于具体句子的计算,可转换为与疑问语义句模库中句模型的匹配与分解问题,进而计算出语义相似度。步骤描述:
输入句子S;
对句子S进行疑问语义标注;
根据句子中疑问运算符和疑问对象,进行分级计算;
分级计算结果,根据疑问点,转化为疑问语义树;
与疑问句模匹配,计算出各级的疑问语义句式;
为后续处理做好准备,处理结束。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

Claims (8)

1.一种基于疑问语义的自然语言语义计算的方法,其特征在于,所述方法包括:
设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;
根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;
根据所述疑问对象或所述疑问运算符的性质和规则,结合所述疑问语义句模库、统计方法和疑问语义树,实现待处理语句的疑问语义计算;
所述方法还包括:
接收用户输入的搜索字符;
根据所述搜索字符和相似度计算获取预先存储的字符模型;
根据所述预先存储的字符模块划分为预先设置的疑问对象;
根据划分后的疑问代词搜索预先存储的字符;
若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
2.根据权利要求1所述的方法,其特征在于,所述设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词,包括:
根据不同的语义场景或者不同的应用场景设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词。
3.根据权利要求1所述的方法,其特征在于,所述根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符,包括:
若所述语义范畴为人,则与人对应的疑问代词为“谁”;
若所述语义范畴为事物,则与事物对应的疑问代词为“什么”;
若所述语义范畴为动作,则与所述事物对应的疑问代词为“怎么”,与所述“怎么”疑问语义等同的其他疑问代词为怎么样、怎样、怎、怎么着、怎的和如何;
若所述语义范畴为时间,则与所述时间对应的疑问代词为几时,与所述“几时”疑问语义等同的其他疑问代词为多会儿、哪会儿和多咱;
若所述语义范畴为地点场所,则与所述地点场所对应的疑问代词为哪里,与所述“哪里”疑问语义等同的其他疑问代词为哪和哪儿;
若所述语义范畴为数目数量,则与所述数目数量对应的疑问代词为多少,与所述多少等同的其他疑问代词为几和多;
若所述语义范畴为虚词,则将所述语义范畴切分并标注为疑问运算符。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
将搜索字符通过预先设置的算法划分为预先设置的疑问对象;
根据划分后的疑问代词搜索预先存储的字符;
若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
5.一种基于疑问语义的自然语言语义计算的装置,其特征在于,所述装置包括:
设计模块,用于设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词;
标注模块,用于根据待处理语句的各组成部分的疑问特征,通过所述疑问语义标注集、疑问语义句模库和疑问语义树,将所述待处理语句的各组成部分切分并标注为疑问对象或疑问运算符;
计算模块,用于根据所述疑问对象或所述疑问运算符的性质和规则,结合所述疑问语义句模库、统计方法和疑问语义树,实现待处理语句的疑问语义计算;
所述装置还包括:
接收模块,用于接收用户输入的搜索字符;
获取模块,用于根据所述搜索字符和相似度计算获取预先存储的字符模型;
第二划分模块,用于根据所述预先存储的字符模块划分为预先设置的疑问对象;
第二搜索模块,用于根据划分后的疑问代词搜索预先存储的字符;
第二显示模块,用于若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
6.根据权利要求5所述的装置,其特征在于,所述设计模块,包括:
设计单元,用于根据不同的语义场景或者不同的应用场景设计多个多层次的疑问语义标注集,每个标注集均由若干现代汉语中常用的疑问词组成,其中疑问词包括疑问代词。
7.根据权利要求5所述的装置,其特征在于,所述标注模块,包括:
第一标注单元,用于若所述语义范畴为人,则与人对应的疑问代词为“谁”;
第二标注单元,用于若所述语义范畴为事物,则与事物对应的疑问代词为“什么”;
第三标注单元,用于若所述语义范畴为动作,则与所述事物对应的疑问代词为“怎么”,与所述“怎么”疑问语义等同的其他疑问代词为怎么样、怎样、怎、怎么着、怎的和如何;
第四标注单元,用于若所述语义范畴为时间,则与所述时间对应的疑问代词为几时,与所述“几时”疑问语义等同的其他疑问代词为多会儿、哪会儿和多咱;
第五标注单元,用于若所述语义范畴为地点场所,则与所述地点场所对应的疑问代词为哪里,与所述“哪里”疑问语义等同的其他疑问代词为哪和哪儿;
第六标注单元,用于若所述语义范畴为数目数量,则与所述数目数量对应的疑问代词为多少,与所述多少等同的其他疑问代词为几和多;
第七标注单元,用于若所述语义范畴为虚词,则将所述语义范畴切分并标注为疑问运算符。
8.根据权利要求5至7任意一项所述的装置,其特征在于,所述装置还包括:
第一划分模块,用于将搜索字符通过预先设置的算法划分为预先设置的疑问对象;
第一搜索模块,用于根据划分后的疑问代词搜索预先存储的字符;
第一显示模块,用于若划分后的疑问代词和预先存储的字符对应,则显示与所述预先存储的字符对应的划分前的待处理的字符。
CN201710866774.6A 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置 Expired - Fee Related CN107562731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710866774.6A CN107562731B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710866774.6A CN107562731B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置
CN201510510604.5A CN105068995B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201510510604.5A Division CN105068995B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置

Publications (2)

Publication Number Publication Date
CN107562731A true CN107562731A (zh) 2018-01-09
CN107562731B CN107562731B (zh) 2020-09-04

Family

ID=54498369

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510510604.5A Expired - Fee Related CN105068995B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置
CN201710866774.6A Expired - Fee Related CN107562731B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201510510604.5A Expired - Fee Related CN105068995B (zh) 2015-08-19 2015-08-19 一种基于疑问语义的自然语言语义计算的方法及装置

Country Status (1)

Country Link
CN (2) CN105068995B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489752B (zh) * 2019-08-14 2021-06-22 梁冰 一种自然语言的语义递归表示系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2825496B1 (fr) * 2001-06-01 2003-08-15 Synomia Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
CN1952928A (zh) * 2005-10-20 2007-04-25 梁威 建立自然语言知识库及其自动问答检索的计算机系统
CN104361127B (zh) * 2014-12-05 2017-09-26 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104657463B (zh) * 2015-02-10 2018-04-27 乐娟 应用于自动问答系统的问句分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于甜甜: "基于语义树的语句相似度和相关度在问答系统中的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质

Also Published As

Publication number Publication date
CN105068995B (zh) 2018-05-29
CN105068995A (zh) 2015-11-18
CN107562731B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
Rajagopal et al. A graph-based approach to commonsense concept extraction and semantic similarity detection
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Tiun et al. Automatic topic identification using ontology hierarchy
CN107038229A (zh) 一种基于自然语义分析的用例提取方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
JP2011118689A (ja) 検索方法及びシステム
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Kiyomarsi et al. Optimizing persian text summarization based on fuzzy logic approach
KR20110017129A (ko) 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체
CN105068995B (zh) 一种基于疑问语义的自然语言语义计算的方法及装置
CN111651528A (zh) 基于生成式对抗网络的开放式实体关系抽取方法
Ihnaini et al. Lexicon-based sentiment analysis of arabic tweets: A survey
KR101359039B1 (ko) 복합명사 분석장치 및 복합명사 분석 방법
Guo et al. Web-based chinese term extraction in the field of study
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Han et al. Mining Technical Topic Networks from Chinese Patents.
Halvani et al. A Generic Authorship Verification Scheme Based on Equal Error Rates.
El Idrissi et al. HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200904