CN111400458A - 一种自动泛化方法及其装置 - Google Patents
一种自动泛化方法及其装置 Download PDFInfo
- Publication number
- CN111400458A CN111400458A CN201811611213.2A CN201811611213A CN111400458A CN 111400458 A CN111400458 A CN 111400458A CN 201811611213 A CN201811611213 A CN 201811611213A CN 111400458 A CN111400458 A CN 111400458A
- Authority
- CN
- China
- Prior art keywords
- semantic
- generalization
- abstract
- specified
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Abstract
本发明提供了一种自动泛化方法,用于基于指定泛化目标产生泛化实例,所述自动泛化方法包括:获取指定泛化目标,所述指定泛化目标为一具体语句实例;基于所述指定泛化目标匹配一预置知识库中的一标准问,所述预置知识库中包括多个知识点,每个知识点对应于一标准问,所述标准问关联有多个具体语义表达式来表示所述标准问;以及基于所述指定泛化目标匹配的标准问及其关联的多个具体语义表达式生成多个泛化实例。
Description
技术领域
本发明涉及智能问答领域,尤其涉及一种对人机交互系统中的知识点进行泛化以获得所述知识点的多个泛化结果的自动泛化方法。
背景技术
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。
智能问答系统是人机交互的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。为此,智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。
但是由于用户的表达习惯不同,基于同一个问题,不同的用户可能产生不同的问法,因此当知识库中的每一问题具有各种不同的问法时,不同用户的个性化问题与知识库中的问题匹配的几率越大,因此对问题进行泛化以获得该问题的各种不同问法对于人机交互的准确率与客户满意度是至关重要的。
基于上述问题,本案提出一种自动泛化方法,用于基于指定泛化目标产生泛化实例。
发明内容
为了克服上述缺陷,本发明旨在提供一种为指定泛化目标产生泛化实例的方法及装置。
根据本发明的一方面,提供了一种自动泛化方法,用于基于指定泛化目标产生泛化实例,所述自动泛化方法包括:获取指定泛化目标,所述指定泛化目标为一具体语句实例;基于所述指定泛化目标匹配一预置知识库中的一标准问,所述预置知识库中包括多个知识点,每个知识点对应于一标准问,所述标准问关联有多个具体语义表达式来表示所述标准问;以及基于所述指定泛化目标匹配的标准问及其关联的多个具体语义表达式生成多个泛化实例。
进一步地,所述匹配标准问包括:计算所述指定泛化目标与所述预置知识库中的每一知识点对应的标准问以及所述标准问关联的多个具体语义表达式的相似度;以及响应于所述指定泛化目标与一标准问或一具体语义表达式的相似度最大且该相似度大于预设阈值,判断所述标准问或所述具体语义表达式关联的标准问为所述指定泛化目标匹配的标准问。
进一步地,自动泛化方法还包括:基于抽象本体语义库匹配所述指定泛化目标对应的抽象本体语义类,所述抽象本体语义库包括多个抽象本体语义类,每一抽象本体语义类包括缺失本体的多个抽象本体语义表达式;以及基于所述指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式生成多个泛化实例。
进一步地,所述匹配指定泛化目标对应的抽象本体语义类包括:对所述指定泛化目标进行分词处理,得到所述指定泛化目标中的本体词;将所述指定泛化目标中的所述本体词用本体语义成分符代替以生成所述指定泛化目标的抽象本体语义表达式;以及基于所述指定泛化目标的抽象本体语义表达式确定所述指定泛化目标对应的抽象本体语义类。
进一步地,所述基于所述指定泛化目标的抽象本体语义表达式确定所述指定泛化目标对应的抽象本体语义类包括:基于所述指定泛化目标的抽象本体语义表达式与所述抽象本体语义库中的所有抽象本体语义类中的每一抽象本体语义表达式计算相似度;以及响应于所述指定泛化目标的抽象本体语义表达式与一抽象本体语义表达式的相似度最大且该相似度大于预设阈值,确定所述抽象本体语义表达式所属的抽象本体语义类为所述指定泛化目标对应的抽象本体语义类。
进一步地,所述生成多个泛化实例包括:获取所述指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式;以及将所述多个抽象本体语义表达式中的本体语义成分符替换为所述本体词以生成所述多个泛化实例。
进一步地,自动泛化方法还包括:将所述多个泛化实例放入所述指定泛化目标的泛化库。
进一步地,自动泛化方法还包括:
基于抽象语义库匹配所述指定泛化目标对应的抽象语义类,所述抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,所述抽象语义表达式由缺失语义成分和语义规则词构成;以及基于所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个泛化实例。
进一步地,所述匹配指定泛化目标对应的抽象语义类包括:对所述指定泛化目标执行分词以获得若干单词,所述单词分为语义规则词或非语义规则词;将所述若干单词中的非语义规则词替换为相应的语义成分符以生成所述指定泛化目标的抽象语义表达式;以及基于所述指定泛化目标的抽象语义表达式确定所述指定泛化目标对应的抽象语义类。
进一步地,所述基于指定泛化目标的抽象语义表达式确定指定泛化目标对应的抽象语义类包括:计算所述指定泛化目标的抽象语义表达式与所述抽象语义库中的所有抽象语义类中的每一抽象语义表达式的相似度;以及响应于所述指定泛化目标的抽象语义表达式与一抽象语义表达式的相似度最大且该相似度大于预设阈值,确定所述抽象语义表达式对应的抽象语义类为所述指定泛化目标对应的抽象语义类。
进一步地,所述生成多个泛化实例包括:获取所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式;以及将所述非语义规则词替换所述多个抽象语义表达式中对应的语义成分符以生成所述多个泛化实例。
进一步地,自动泛化方法还包括:基于通用领域数据标注库匹配所述指定泛化目标对应的标准问,所述通用领域数据标注库包括多个问题以及与每个问题相关联的标准问;以及将所述通用领域数据标注库中与所述指定泛化目标对应的标准问及其相关联的问题作为泛化实例。
进一步地,所述匹配指定泛化目标对应的标准问包括:计算所述指定泛化目标与所述通用领域数据标注库中的所有标准问以及所有问题的相似度;以及响应于所述指定泛化目标与一标准问或一问题的相似度最大且该相似度大于预设阈值,确定所述标准问或所述问题相关联的标准问为所述指定泛化目标对应的标准问。
进一步地,自动泛化方法还包括:将人工确认后的泛化实例放入所述指定泛化目标的泛化库。
根据本发明的另一个方面,提供一种自动泛化装置,所述自动泛化装置包括:获取模块,用于获取指定泛化目标,所述指定泛化目标为一具体语句实例;匹配模块,与所述获取模块耦接并接收所述获取模块获取到的所述指定泛化目标,所述匹配模块为所述指定泛化目标匹配一预置知识库中的一标准问,所述预置知识库中包括多个知识点,每个知识点对应于一标准问,所述标准问关联有多个具体语义表达式来表示所述标准问;以及泛化模块,与所述匹配模块耦接并获取所述匹配模块为所述指定泛化目标匹配成功的标准问,基于所述标准问及其关联的多个具体语义表达式生成多个泛化实例。
根据本发明的另一个方面,提供一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,所述处理器被用于执行存储在所述存储器上的计算机程序时实现如上述任一项所述的自动泛化方法的步骤。
根据本发明的另一个方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述任一项所述自动泛化方法的步骤。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,更能够更好地理解本发明的上述特征和优点。
图1是根据本发明的一个方面绘示的一自动泛化方法的流程图;
图2是根据本发明的一个方面绘示的又一自动泛化方法的流程图;
图3是根据本发明的一个方面绘示的再一自动泛化方法的流程图;
图4是根据本发明的一个方面绘示的另一自动泛化方法的流程图;
图5是根据本发明的一个方面绘示的又一自动泛化方法的流程图;
图6是根据本发明的另一个方面绘示的一自动泛化装置的框图;
图7是根据本发明的另一个方面绘示的另一自动泛化装置的框图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
首先对于本案中涉及到的各种专用或非专用于自动泛化的数据库进行简单示例性介绍。
预置知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本发明中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。
用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式。例如,若对于收音机的电台切换的标准问形式是“换一个电台”,那么用户可能使用的命令是“切换一个电台”,机器也需要能够识别用户表达的是同一个意思。因此,对于智能语义识别而言,预置知识库里需要有标准问的相似问,该相似问与标准问表达形式有略微差异,但是表达相同的含义。
更进一步,为了更准确、高效地识别用户问题,智能问答系统还基于相似问的表达形式发展出了具体语义表达式的概念。
具体语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于“词类”,词类简单的理解即为一组有共性的词,这些词在语义上可以相似也可以不相似,这些词也可以被标注为重要或不重要。具体语义表达式与用户问句之间的关系可通过量化的值(相似度)来表示,同时这个量化的值与相似问句和用户问句之间的相似度是可以互相比较的。
以下对具体语义表达式作简要介绍。
具体语义表达式中的符号
A.词类的表示([])
为区分表达式中的词与词类,规定词类必须出现在方括号“[]”中,方括号中出现的词类一般为“狭义词类”,但是也可通过配置系统参数以支持“广义词类”。
下面是一些简单表达式的示例:
[飞信][如何][开通]
[介绍][彩信][业务]
[飞信]的[登录][方法]
[来电提醒][如何][收费]
B.或关系的表示(|)
在方括号中的词类可以通过“或”关系出现多次,这些“或”关系的词类会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是根据“或”的意义将具体语义表达式展开成多个简单表达式的过程。如:[彩铃][开通]的[方法|步骤]可展开成“[彩铃][开通]的[步骤]”和“[彩铃][开通]的[方法]”两个简单的具体语义表达式。
这类具体语义表达式的示例如下:
[彩铃][开通]的[方法|步骤]
[怎样][查询|知道][PUK码]
[退订|撤销|关闭|停用][IP|17951][国内长途优惠包]
[来电提醒][功能费|月租费|信息费|通信费]
C.非必要的表示(?)
在方括号中的词类可以在结尾加入“?”表示可出现也可以不出现,即非必要的关系,这种非必要关系的词类也同样会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是将具体语义表达式中含有非必要的词类(或词类的“或组合”)展开成包含和不包含这个词类的两个简单具体语义表达式的过程。如:[介绍][手机视频][军事栏目][内容][什么?]可展开成“[介绍][手机视频][军事栏目][内容]”和“[介绍][手机视频][军事栏目][内容][什么]”两个简单具体语义表达式。
这类具体语义表达式的示例如下:
[彩铃][取消]的[方法|步骤?]
[介绍][手机视频][军事栏目][内容][什么?]
[介绍][12580?][生活播报][品质生活版][免费][业务?]
[怎样][开通][移动数据|流量|上网][100元][套餐?][短信]
D.语义增强(&)
在具体语义表达式的最左边出现“&”符号,可以在相似度计算中提高具体语义表达式内词类的权重。这类具体语义表达式往往可忽略用户问句中更多的词,匹配范围可以更广泛。
这类具体语义表达式的示例如下:
&[手机视频][优惠包|优惠]
&[全网音乐盒][星光熠熠][1元][套餐]
&[17951][移动IP电话][业务?]
&[IP?][直通车][业务?]
因此,对于智能语义识别而言,预置知识库里需要有标准问的扩展问,该扩展问与标准问表达形式有略微差异,但是表达相同的含义。
进一步,为了更准确、高效地识别用户问题,智能问答系统还发展出了抽象本体语义的概念。抽象本体语义是在具体语义表达式的基础上对表达式中的一个元素即本体进行了扩充。当一个抽象本体语义表达式被扩充的本体被赋予相应的具体的本体词后,该抽象本体语义表达式即可表达相应的具体语义。
每一个抽象本体语义表达式包括本体语义成分符以及其它词。一个具体语义表达式一般包括多个不同词类,这些词类中表示该具体语义表达式的主体或客体成分的词或短语即是该具体语义表达式的本体词,一般是名词词性。具体语义表达式中除本体词以外的词即为其他词。将具体语义表达式的本体词采用本体语义成分符替代即可形成抽象本体语义表达式。
由至少一个表达相同意思的抽象本体语义表达式构成的一类表达式的集合称为一个抽象本体语义类。
下面是一个抽象本体语义类的抽象本体表达式的示例:
a.[concept][需要|应该?][如何][才[可以]?][进行?][开通]
b.{[concept]~[开通]}
c.[concept][的?][开通][方法|方式|步骤?]
d.[有哪些|有什么|有没有][通过|用|在][concept][开通][的?][方法]
e.[如何][开通]~[concept]
将上述本体语义成分符[concept]采用任意一个本体词进行替换即可得到用于表达相同意思的不同具体语义表达式,比如:
微信
a.[微信][需要|应该?][如何][才[可以]?][进行?][开通]
b.{[微信]~[开通]}
c.[微信][的?][开通][方法|方式|步骤?]
d.[有哪些|有什么|有没有][通过|用|在][微信][开通][的?][方法]
e.[如何][开通]~[微信]
上述a、b、c、d四个抽象本体语义表达式中的符号“|”表示“或”关系,符号“?”表示该成分可有可无。
对于上述每一个抽象本体语义表达式进行符号意义上的组合可以得到多个具体语句。以上述抽象语义表达式c为例,可展开为以下的具体表达语句:
c1.微信的开通方法
c2.微信的开通方式
c3.微信的开通步骤
c4.微信的开通
c5.微信开通方法
c6.微信开通方式
c7.微信开通步骤
c8.微信开通
因此,对于智能语义识别而言,抽象本体语义库中需要包括多个抽象本体语义类,每个抽象本体语义类中的抽象本体语义表达式经过本体词的替换均可成为一个具体语句,同一抽象本体语义类形成的具体语句表达相同的意思。
更进一步地,抽象语义是对本体类属性的进一步抽象。一个类别的抽象语义通过一组抽象语义表达式的集合来描述一类抽象语义的不同表达,为表达更为抽象的语义,这些抽象语义表达式在组成元素上进行了扩充。当这些扩充的元素一旦被赋予了相应的值就可以表达各种各样的具体语义。
每一个抽象语义表达式主要可包括缺失语义成分和语义规则词。缺失语义成分由语义成分符表示,当这些缺失的语义成分被填充了相应的值(即内容)后可以表达各式各样的具体语义。
抽象语义的语义成分符可包括:
[concept]:表示主体或客体成分的词或短语。
比如:“彩铃如何开通”中的“彩铃”
[action]:表示动作成分的词或短语。
比如:“信用卡如何办理”中的“办理”
[attribute]:表示属性成分的词或短语。
比如:“iphone有哪些颜色”中的“颜色”
[adjective]:表示修饰成分的词或短语。
比如:“冰箱哪个品牌便宜”中的“便宜”
一些主要的抽象语义类别示例有:
概念说明[concept]是什么
属性构成[concept]有哪些[attribute]
行为方式[concept]如何[action]
行为地点[concept]在什么地方[action]
行为原因[concept]为什么会[action]
行为预测[concept]会不会[action]
行为判断[concept]有没有[attribute]
属性状况[concept]的[attribute]是不是[adjective]
属性判断[concept]是不是有[attribute]
属性原因[concept]的[attribute]为什么这么[adjective]
概念比较[concept1]和[concept2]的区别在哪里
属性比较[concept1]和[concept2]的[attribute]有什么不同之处
问句在抽象语义层面的成分判断可以通过词性标注来做一般的评判,concept对应的词性为名词,action对应的词性为动词、attribute对应的词性为名词、adjective对应的是形容词。
以类别为“行为方式”的抽象语义[concept]如何[action]为例,该类别的抽象语义集合下可包括多条抽象语义表达式:
抽象语义类别:行为方式
抽象语义表达式:
a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]
b.{[concept]~[action]}
c.[concept]<的?>[action]<方法|方式|步骤?>
d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]
e.[如何][action]~[concept]
上述a、b、c、d四个抽象语义表达式都是用来描述“行为方式”这一抽象语义类别的。符号“|”表示“或”关系,符号“?”表示该成分可有可无。以上述抽象语义表达式c为例,可展开为以下的抽象语义表达:
c1.[concept]<的>[action]<方法>
c2.[concept]<的>[action]<方式>
c3.[concept]<的>[action]<步骤>
c4.[concept]<的>[action]
c5.[concept][action]<方法>
c6.[concept][action]<方式>
c7.[concept][action]<步骤>
c8.[concept][action]
在上述抽象语义表达式中,除了作为缺失语义成分的抽象的语义成分符之外,其他出现的具体的词如“如何”、“应该”、“方法”等等,这些词需要在抽象语义规则中被使用,所以可统称为语义规则词。
将上述语义成分符分别替换成对应的非语义规则词类中的具体词,即可得到一系列具体的表达语句。
再进一步地,对于一些无法通过上述表达式进行归纳总结的“问-答”或是来不及进行归纳总结的“问-答”生成通用领域数据标注库。将通用领域标注库中的问题与其对应的答案进行“一对一”标注,当然,不同的问题可能会对应于同一个答案,因此通用领域标注库中的对应于同一个答案的问题实际上表达相同的意思,该些对应于同一个答案中的其中一个问题可作为对应该答案的其它问题的标准问。
为提高各种不同数据库中的用户问题和数据库中存储的问题的匹配几率,根据本发明的一个方面,提供一种自动泛化方法100,该自动泛化方法100用于基于指定泛化目标从预置知识库中产生多个泛化实例,即基于同一个问题可以产生各种不同的表达语句,该些语句表达相同的语义。如图1所示,自动泛化方法100包括:
S110:获取指定泛化目标;
指定泛化目标为一具体语句实例,比如用户手动输入的一具体的表达语句或是批量输入的多个泛化目标中的一个,或是智能问答系统的使用者手动输入的一个具体问题等等。所述“获取”可以是从输入端接收,也可以是从内部其它库中调用,甚至可以是从网络数据中爬取等等。
S120:基于指定泛化目标匹配一预置知识库中的一标准问;
该预置知识库可以是一个包括不同领域的不同知识点的预置知识库,也可以是不同领域具有一个预置知识库,基于不同的知识问答系统采用不同的预置知识库。
S130:基于指定泛化目标匹配的标准问及其关联的多个具体语义表达式生成多个泛化实例。
进一步具体地,该步骤S120可以包括:
S121:计算该指定泛化目标与预置知识库中的每一知识点对应的标准问以及标准问关联的多个具体语义表达式的相似度;
此处的语义相似度是指指定泛化目标与预置知识库中的问句基于字与词语上的匹配程度和/或语义上的符合程度。具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
S122:响应于指定泛化目标与一标准问或一具体语义表达式的相似度最大且该相似度大于预设阈值,判断该标准问或该具体语义表达式关联的标准问为指定泛化目标匹配的标准问。
可以理解,与该指定泛化目标的相似度最大的标准问或具体语义表达式是与该指定泛化目标语义最相近的标准问或具体语义表达式,若该指定泛化目标存在与其匹配成功的标准问或具体语义表达式,则可以推测是与该指定泛化目标的相似度最大的标准问或具体语义表达式。
当该与指定泛化目标的相似度最大的标准问或具体语义表达式满足匹配成功的相似度阈值要求时,则该标准问或具体语义表达式关联的标准问即是该指定泛化目标匹配的标准问。
在另一实施例中,提供一自动泛化方法200,用于基于抽象本体语义库为指定泛化目标生成多个泛化实例。如图2所示,该自动泛化方法200包括:
S110:获取指定泛化目标;
S220:基于抽象本体语义库匹配指定泛化目标对应的抽象本体语义类,抽象本体语义库包括多个抽象本体语义类,每一抽象本体语义类包括缺失本体的多个抽象本体语义表达式;
S230:基于指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式生成多个泛化实例。
进一步地,步骤S220可具体包括:
S221:对指定泛化目标进行分词处理,得到指定泛化目标中的本体词;
分词处理是将该指定泛化目标分成若干单独词,比如:“如何开通微信”可以分成:“如何”、“开通”、“微信”。通过词性、句中的成分识别或语义的识别能够得到构成该指定泛化目标的本体词,比如:如何开通微信中的“微信”。所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法,或其他合适的分词方法。
S222:将指定泛化目标中的本体词用本体语义成分符代替以生成指定泛化目标的抽象本体语义表达式;
比如将“如何开通微信”中的“微信”用[concept]替代,可以得到“如何开通微信”的抽象本体语义表达式“如何开通[concept]”。
S223:基于指定泛化目标的抽象本体语义表达式确定指定泛化目标对应的抽象本体语义类。
更进一步地,该步骤S223可以包括:
S2231:基于指定泛化目标的抽象本体语义表达式与抽象本体语义库中的所有抽象本体语义类中的每一抽象本体语义表达式计算相似度;
此处的语义相似度是指指定泛化目标与该抽象本体语义库中的抽象本体语义表达式基于字与词语上的匹配程度和/或语义上的符合程度,还可以包括本体语义成分符在句中的位置等。
具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent SemanticIndexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
S2232:响应于指定泛化目标的抽象本体语义表达式与一抽象本体语义表达式的相似度最大且该相似度大于预设阈值,确定该抽象本体语义表达式所属的抽象本体语义类为指定泛化目标对应的抽象本体语义类。
比如:“如何开通[concept]”与上述抽象本体语义库介绍内容中的抽象本体语义类中的抽象本体表达式“e.[如何][开通]~[concept]”的相似度为100%,因此然大于预设阈值(假设为88%),则“e.[如何][开通]~[concept]”所属的抽象本体语义类即为“如何开通微信”对应的抽象本体语义类。
进一步地,步骤S230可以包括:
S231:获取指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式;
比如,指定泛化目标为“如何开通微信”对应的抽象本体语义类中包括抽象本体语义表达式a、b、c、d和e,获取该些抽象本体语义表达式a、b、c、d和e。
S232:将多个抽象本体语义表达式中的本体语义成分符替换为本体词以生成多个泛化实例。
比如,在指定泛化目标为“如何开通微信”的示例中,将本体词“微信”替换该些抽象本体语义表达式a、b、c、d和e中的本体语义成分符,以获得多个具体语义表达式,将该些具体语义表达式中的符号进行不同的组合即可得到多个泛化示例,如本案抽象本体语义库的介绍部分所述,抽象本体语义表达式c可以生成8个泛化示例。
根据本发明的一个方面,提供一自动泛化方法300,用于基于抽象语义库为指定泛化目标生成泛化示例。如图3所示,该自动泛化方法300包括:
S110:获取指定泛化目标;
S320:基于抽象语义库匹配指定泛化目标对应的抽象语义类,抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,抽象语义表达式由缺失语义成分和语义规则词构成;以及
S330:基于指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个泛化实例。
具体地,步骤S320可以包括:
S321:对指定泛化目标执行分词以获得若干单词,该若干单词分为语义规则词或非语义规则词;
比如,以“微信的开通方式”为指定泛化目标示例,对指定泛化目标进行分词以获得多个单独词:“微信”“的”“开通”“方式”,对该些单独词进行识别以将每一单独词识别为语义规则词或非语义规则词,语义规则词属于抽象语义表达式用到的词。
具体而言,例如可在语义规则词库中查找每个单独词,语义规则词库包括属于抽象语义表达式用到的所有词语的集合。若某一个单独词存在于语义规则词库中则将该单独词识别为语义规则词,否则识别为非语义规则词。又如:还可以用词类判断,如介词、助词等词性。若某一个单词为介词或助词,则该单词识别为语义规则词,否则识别为非语义规则词。
S322:将该若干单词中的非语义规则词替换为相应的语义成分符以生成指定泛化目标的抽象语义表达式;
至少基于每个非语义规则词的词性信息将非语义规则词替换为相应语义成分符以作为抽象语义表达式的缺失语义成分。
例如,词性被标记为名词的非语义规则词可用表示主体或客体成份的词或短语的语义成分符concept替换,词性被标记为动词的非语义规则词可用表示动作成分的词或短语的语义成分符action来替换,词性被标记为形容词的非语义规则词可用表示修饰成分的词或短语的语义成分符adjective来替换,词性被标记为名词的非语义规则词还可用表示属性成分的词或短语的语义成分符attribute替换。
此外,还基于语料的上下文将非语义规则词替换为相应语义成分符以作为指定泛化目标的抽象语义表达式的缺失语义成分。比如,“微信的开通方式”中的“微信”的词性为名词,因此替换为concept,“开通”的词性为动词,因此替换为action,因而“微信的开通方式”对应的抽象语义表达式为“[concept]<的>[action]<方式>”。
S323:基于指定泛化目标的抽象语义表达式确定指定泛化目标对应的抽象语义类。
更进一步地,步骤S323包括:
S3231:计算指定泛化目标的抽象语义表达式与抽象语义库中的所有抽象语义类中的每一抽象语义表达式的相似度;
此处的语义相似度是指指定泛化目标与该抽象语义库中的抽象语义表达式基于语义规则词上的匹配程度和/或语义上的符合程度,还可以包括语义成分符的性质和在句中的位置等。
具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent SemanticIndexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
S3232:响应于指定泛化目标的抽象语义表达式与一抽象语义表达式的相似度最大且该相似度大于预设阈值,确定抽象语义表达式对应的抽象语义类为指定泛化目标对应的抽象语义类。
比如,“微信的开通方式”的抽象语义表达式“[concept]<的>[action]<方式>”与行为方式抽象语义类中的抽象语义表达式c相似度为100%,因此显然大于预设阈值,将行为方式的抽象语义类确定为指定泛化目标“微信的开通方式”对应的抽象语义类。
更进一步地,步骤S330包括:
S331:获取指定泛化目标对应的抽象语义类中的多个抽象语义表达式;
比如,在以“微信的开通方式”为指定泛化目标的示例中,如前文抽象语义库的介绍内容所述,行为方式的抽象语义类包括抽象语义表达式a、b、c、d和e,获取该些抽象语义表达式a、b、c、d和e。
S332:将非语义规则词替换多个抽象语义表达式中对应的语义成分符以生成多个泛化实例。
比如,在指定泛化目标为“微信的开通方式”的示例中,将名词“微信”替换该些抽象本体语义表达式a、b、c、d和e中的语义成分符[concept],将动词“开通”替换该些抽象本体语义表达式a、b、c、d和e中的语义成分符[action],以获得多个具体语义表达式。将该些具体语义表达式中的符号进行不同的组合即可得到多个泛化示例。如本案抽象语义库的介绍部分所述,抽象语义表达式c可以生成8个泛化示例。
根据本发明的一个方面,提供一种自动泛化方法400,用于基于通用领域数据标注库为指定泛化目标生成多个泛化示例。如图4所示,自动泛化方法400包括:
S110:获取指定泛化目标;
S420:基于通用领域数据标注库匹配指定泛化目标对应的标准问,通用领域数据标注库包括多个问题以及与每个问题相关联的标准问;
可以理解,通用领域数据标注库中对应于同一个答案的多个问题通常是差异较大,无法进行归纳总结的相同语义的语句,类似于一具体语义表达式泛化出的具体语句仅仅是该具体语义表达式本身。
S430:将通用领域数据标注库中与指定泛化目标对应的标准问及其相关联的问题作为泛化实例。
进一步具体地,该步骤S420包括:
S421:计算指定泛化目标与通用领域数据标注库中的所有标准问以及所有问题的相似度;
此处的语义相似度是指指定泛化目标与该通用领域数据标注库中的问题基于字与词语上的匹配程度和/或语义上的符合程度。
具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent SemanticIndexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
比如:通用领域数据标注库中对应于一个答案A的问题包括Q1、Q2和Q3,其中标准问为Q1,将指定泛化目标Q分别对应该答案A的所有问题Q1、Q2和Q3计算相似度。
S422:响应于指定泛化目标与一标准问或一问题的相似度最大且该相似度大于预设阈值,确定该标准问或该问题相关联的标准问为指定泛化目标对应的标准问。
假设该指定泛化目标Q与问题Q2的相似度最大且大于预设阈值,则该问题Q2对应的标准问Q1即为该指定泛化目标对应的标准问。则步骤S430中,将该标准问Q1及其关联的问题Q2、Q3作为该指定泛化目标Q的泛化实例。
可以理解,通用领域数据标注库中的标准问仅仅是一个“代号”,实际上可以存在设定标准问或不存在设定标准问的过程。
上述自动泛化方法100~400中,泛化结果的准确度存在差异,因此基于自动泛化方法100和200生成的泛化实例可以直接放入指定泛化目标的泛化库以作为指定泛化目标的扩展问。基于自动泛化方法300和400生成的泛化示例需要经过人工确认,将人工确认后的泛化实例放入指定泛化目标的泛化库。
可以理解,上述自动泛化100~400可以择一进行或采用不同组合进行对同一指定泛化目标的泛化。
较优地,如图5所示,可以先将指定泛化目标通过自动泛化方法100进行泛化,当该指定泛化目标无法与预置知识库中的知识匹配成功(条件A)时,用自动泛化方法200进行泛化。当该指定泛化目标无法与抽象本体语义库中的任一抽象本体语义类匹配成功(条件B)时,采用自动方法300对指定泛化目标进行泛化。当指定泛化目标无法与抽象语义库中的任一抽象语义类匹配成功(条件C),采用自动泛化方法400对指定泛化目标进行泛化。可以理解,由于显示页面的大小问题,图5中的部分流程框中的内容进行了省略。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
根据本发明的另一个方面,提供一种自动泛化装置,用于基于指定泛化目标生成泛化实例。
可以理解,在自动泛化装置的描述过程中可能涉及一些上述已涉及过的概念或定义,在此不再赘述,本发明中的一些相同概念或定义除特别说明或具体实施例中的特定指代外均具有相同含义。
在一实施例中,如图6所示,该自动泛化装置600包括获取模块610、匹配模块620以及泛化模块630。
获取模块610用于获取指定泛化目标;
可以理解,获取模块610可以是键盘、触摸屏等形式的输入装置,或是具有主动读取功能的存储器,或是处理器等等可以获取数据的装置。该“获取”可以是从自动泛化装置600外部进行获取,也可以是从自动泛化装置600内部进行获取。
匹配模块620与该获取模块610耦接,用于从获取模块610接收该获取模块610获取的指定泛化目标,并基于指定泛化目标匹配一预置知识库中的一标准问。
泛化模块630与匹配模块620耦接,用于获取该匹配模块620为该指定泛化目标匹配成功的标准问,并基于指定泛化目标匹配的标准问及其关联的多个具体语义表达式生成多个泛化实例。
进一步地,该匹配模块620可包括相似度计算单元621以及判定单元622。
该相似度计算单元621用于计算该指定泛化目标与预置知识库中的每一知识点对应的标准问以及标准问关联的多个具体语义表达式的相似度;
可以理解,此处的相似度是指指定泛化目标与预置知识库中的问句基于字与词语上的匹配程度和/或语义上的符合程度。具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
该判定单元622与该相似度计算单元621耦接,用于接收相似度计算单元621的相似度计算结果,并从该些相似度计算结果中识别出最大的相似度值,响应于该最大的相似度值大于预设阈值,判定单元622将该最大相似度值对应的标准问或该具体语义表达式关联的标准问确定为该指定泛化目标匹配的标准问。
在自动泛化装置600的另一工作模式下,可用于基于通用领域数据标注库来产生多个泛化实例。其中:
获取模块610用于获取指定泛化目标。
匹配模块620与该获取模块610耦接,用于从获取模块610接收该获取模块610获取的指定泛化目标,并基于指定泛化目标匹配一通用领域数据标注库中的一标准问。
泛化模块630与匹配模块620耦接,用于获取该匹配模块620为该指定泛化目标匹配成功的标准问,并基于指定泛化目标匹配的标准问及其关联的问题生成泛化实例。
进一步地,该匹配模块620可包括相似度计算单元621以及判定单元622。
该相似度计算单元621用于计算该指定泛化目标与通用领域数据标注库中的所有标准问的相似度以及所有标准问关联的问题的相似度;
可以理解,此处的相似度是指指定泛化目标与通用领域数据标注库中的问句基于字与词语上的匹配程度和/或语义上的符合程度。
该判定单元622与该相似度计算单元621耦接,用于接收相似度计算单元621的相似度计算结果,并从该些相似度计算结果中识别出最大的相似度值,响应于该最大的相似度值大于预设阈值,判定单元622将该最大相似度值对应的该标准问或该问题关联的标准问确定为该指定泛化目标匹配的标准问。
在另一实施例中,如图7所示,该自动泛化装置700包括获取模块710、匹配模块720以及泛化模块730。
该获取模块710用于获取指定泛化目标;
该匹配模块720与该获取模块710耦接,用于从获取模块710接收该获取模块610获取的指定泛化目标,并基于抽象本体语义库匹配指定泛化目标对应的抽象本体语义类。
该泛化模块730与匹配模块720耦接,用于获取该匹配模块620为该指定泛化目标匹配成功的抽象本体语义类,并基于指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式生成多个泛化实例。
进一步地,该匹配模块720包括分词单元721、表达式生成单元722以及识别单元723。
该分词单元721用于对指定泛化目标进行分词处理,得到指定泛化目标中的本体词。
表达式生成单元722与该分词单元721耦接,用于将指定泛化目标中的本体词用本体语义成分符代替以生成指定泛化目标的抽象本体语义表达式。
识别单元723与该表达式生成单元722耦接以获取表达式生成单元722生成的指定泛化目标的抽象本体语义表达式,并基于指定泛化目标的抽象本体语义表达式确定指定泛化目标对应的抽象本体语义类。
更进一步地,该识别单元723还包括相似度计算块7231以及判定块7232。
该相似度计算块7231基于指定泛化目标的抽象本体语义表达式与抽象本体语义库中的抽象本体语义类中的每一抽象本体语义表达式计算相似度。
该判定块7232与该相似度计算块7231耦接,用于基于相似度计算块7231计算出的相似度值来判定。该判定块7232从该些相似度值中识别出最大的相似度值,响应于该最大的相似度值大于预设阈值,判定块7232将该最大相似度值对应的抽象本体语义表达式所属的抽象本体语义类确定为指定泛化目标对应的抽象本体语义类。
可以理解,虽然在本实施例中,该相似度计算块7231以及判定块7232虽然是作为识别单元723的子块,但在其它实施例中,也可以直接将该识别单元拆分成相似度计算单元以及判定单元存在。
较优地,该泛化模块730获取该指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式并将该多个抽象本体语义表达式中的本体语义成分符替换为该指定泛化目标的本体词以生成多个泛化实例。
在自动泛化装置700的另一工作模式下,可基于抽象语义库生成泛化样例,其中:
该获取模块710用于获取指定泛化目标;
该匹配模块720与该获取模块710耦接,用于从获取模块710接收该获取模块610获取的指定泛化目标,并基于抽象语义库匹配指定泛化目标对应的抽象语义类。
该泛化模块730与匹配模块720耦接,用于获取该匹配模块620为该指定泛化目标匹配成功的抽象语义类,并基于指定泛化目标相对应的抽象语义类中的多个抽象语义表达式生成多个泛化实例。
进一步地,该匹配模块720包括分词单元721、表达式生成单元722以及识别单元723。
该分词单元721用于对指定泛化目标进行分词处理以获得若干单词,该若干单词分为语义规则词或非语义规则词。
表达式生成单元722与该分词单元721耦接,用于将指定泛化目标中的非语义规则词用相应的语义成分符代替以生成指定泛化目标的抽象语义表达式。
识别单元723与该表达式生成单元722耦接以获取表达式生成单元722生成的指定泛化目标的抽象语义表达式,并基于指定泛化目标的抽象语义表达式确定指定泛化目标对应的抽象语义类。
更进一步地,该识别单元723还包括相似度计算块7231以及判定块7232。
该相似度计算块7231基于指定泛化目标的抽象语义表达式与抽象语义库中的抽象语义类中的每一抽象语义表达式计算相似度。
该判定块7232与该相似度计算块7231耦接,用于基于相似度计算块7231计算出的相似度值来判定。该判定块7232从该些相似度值中识别出最大的相似度值,响应于该最大的相似度值大于预设阈值,判定块7232将该最大相似度值对应的抽象语义表达式所属的抽象语义类确定为指定泛化目标对应的抽象语义类。
可以理解,虽然在本实施例中,该相似度计算块7231以及判定块7232虽然是作为识别单元723的子块,但在其它实施例中,也可以直接将该识别单元拆分成相似度计算单元以及判定单元存在。
较优地,该泛化模块730获取该指定泛化目标相对应的抽象语义类中的多个抽象语义表达式并将该多个抽象语义表达式中的语义成分符替换为对应的该指定泛化目标的非语义规则词以生成多个泛化实例。
上述多个实施例中是基于自动泛化装置的多种工作模式分开阐述的,因此自动泛化装置在基于不同的泛化方法进行泛化时涉及到的模块有所不同,即使涉及到相同的模块也可能涉及模块中的不同工作单元,本领域的技术人员可以理解,实际上在每一实施例中的自动泛化装置可以是专用于该工作模式下的自动泛化装置,即该自动泛化装置可以是仅包括该实施例中阐述的工作模块、工作单元以及工作块;也可以还包括多个组合的工作模式下的其它工作模块或工作单元的自动泛化装置,在该种情况下,该些工作模式下的名称相同的工作模块或单元可以是重复存在或共用的。
比如,在一实施例中,自动泛化装置700的匹配模块在指定泛化目标无法与预置知识库中的一标准问匹配时,该匹配模块720可基于抽象本体语义库来泛化指定泛化目标;当指定泛化目标无法与抽象本体语义库中的一抽象本体语义表达式匹配时,该匹配模块720可基于抽象语义库来泛化指定泛化目标;当指定泛化目标无法与抽象语义库中的一抽象语义表达式中的一抽象语义表达式匹配时,匹配模块720可基于通用领域数据标注库来泛化指定泛化目标。更优地,当该指定泛化目标无法与通用领域数据标注库中的问题或标准问匹配时,该匹配模块720还可以通过爬取网络数据来泛化指定泛化目标。
在该些情况下,自动泛化装置700的其它工作模块、工作单元或工作块的工作模式适应性改变。
在又一实施例中,该自动泛化装置700还可以包括存储器,用于存储该些预置知识库、抽象本体语义库、抽象语义库、通用领域数据标注库和/或泛化库,该泛化库是用于存储泛化模块生成的泛化实例的数据库。
根据本发明的又一个方面,提供一种电子设备,该电子设备包括存储器、处理器以及存储在存储器上的计算机程序。该处理器被用于执行存储在该存储器上的计算机程序时实现上述任一自动泛化方法的步骤。
根据本发明的又一个方面,提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被执行时实现如上述任一自动泛化方法的步骤。
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解,本发明的保护范围应当以所附权利要求书为准,而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内,可以对各实施例进行各种变动和修改,这些变动和修改也落在本发明的保护范围之内。
Claims (17)
1.一种自动泛化方法,用于基于指定泛化目标产生泛化实例,所述自动泛化方法包括:
获取指定泛化目标,所述指定泛化目标为一具体语句实例;
基于所述指定泛化目标匹配一预置知识库中的一标准问,所述预置知识库中包括多个知识点,每个知识点对应于一标准问,所述标准问关联有多个具体语义表达式来表示所述标准问;以及
基于所述指定泛化目标匹配的标准问及其关联的多个具体语义表达式生成多个泛化实例。
2.如权利要求1所述的自动泛化方法,其特征在于,所述匹配标准问包括:
计算所述指定泛化目标与所述预置知识库中的每一知识点对应的标准问以及所述标准问关联的多个具体语义表达式的相似度;以及
响应于所述指定泛化目标与一标准问或一具体语义表达式的相似度最大且该相似度大于预设阈值,判断所述标准问或所述具体语义表达式关联的标准问为所述指定泛化目标匹配的标准问。
3.如权利要求1所述的自动泛化方法,其特征在于,还包括:
基于抽象本体语义库匹配所述指定泛化目标对应的抽象本体语义类,所述抽象本体语义库包括多个抽象本体语义类,每一抽象本体语义类包括缺失本体的多个抽象本体语义表达式;以及
基于所述指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式生成多个泛化实例。
4.如权利要求3所述的自动泛化方法,其特征在于,所述匹配指定泛化目标对应的抽象本体语义类包括:
对所述指定泛化目标进行分词处理,得到所述指定泛化目标中的本体词;
将所述指定泛化目标中的所述本体词用本体语义成分符代替以生成所述指定泛化目标的抽象本体语义表达式;以及
基于所述指定泛化目标的抽象本体语义表达式确定所述指定泛化目标对应的抽象本体语义类。
5.如权利要求4所述的自动泛化方法,其特征在于,所述基于所述指定泛化目标的抽象本体语义表达式确定所述指定泛化目标对应的抽象本体语义类包括:
基于所述指定泛化目标的抽象本体语义表达式与所述抽象本体语义库中的所有抽象本体语义类中的每一抽象本体语义表达式计算相似度;以及
响应于所述指定泛化目标的抽象本体语义表达式与一抽象本体语义表达式的相似度最大且该相似度大于预设阈值,确定所述抽象本体语义表达式所属的抽象本体语义类为所述指定泛化目标对应的抽象本体语义类。
6.如权利要求4所述的自动泛化方法,其特征在于,所述生成多个泛化实例包括:
获取所述指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式;以及
将所述多个抽象本体语义表达式中的本体语义成分符替换为所述本体词以生成所述多个泛化实例。
7.如权利要求1或3所述的自动泛化方法,其特征在于,还包括:
将所述多个泛化实例放入所述指定泛化目标的泛化库。
8.如权利要求1所述的自动泛化方法,其特征在于,还包括:
基于抽象语义库匹配所述指定泛化目标对应的抽象语义类,所述抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,所述抽象语义表达式由缺失语义成分和语义规则词构成;以及
基于所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个泛化实例。
9.如权利要求8所述的自动泛化方法,其特征在于,所述匹配指定泛化目标对应的抽象语义类包括:
对所述指定泛化目标执行分词以获得若干单词,所述单词分为语义规则词或非语义规则词;
将所述若干单词中的非语义规则词替换为相应的语义成分符以生成所述指定泛化目标的抽象语义表达式;以及
基于所述指定泛化目标的抽象语义表达式确定所述指定泛化目标对应的抽象语义类。
10.如权利要求9所述的自动泛化方法,其特征在于,所述基于指定泛化目标的抽象语义表达式确定指定泛化目标对应的抽象语义类包括:
计算所述指定泛化目标的抽象语义表达式与所述抽象语义库中的所有抽象语义类中的每一抽象语义表达式的相似度;以及
响应于所述指定泛化目标的抽象语义表达式与一抽象语义表达式的相似度最大且该相似度大于预设阈值,确定所述抽象语义表达式对应的抽象语义类为所述指定泛化目标对应的抽象语义类。
11.如权利要求9所述的自动泛化方法,其特征在于,所述生成多个泛化实例包括:
获取所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式;以及
将所述非语义规则词替换所述多个抽象语义表达式中对应的语义成分符以生成所述多个泛化实例。
12.如权利要求1所述的自动泛化方法,其特征在于,还包括:
基于通用领域数据标注库匹配所述指定泛化目标对应的标准问,所述通用领域数据标注库包括多个问题以及与每个问题相关联的标准问;以及
将所述通用领域数据标注库中与所述指定泛化目标对应的标准问及其相关联的问题作为泛化实例。
13.如权利要求12所述的自动泛化方法,其特征在于,所述匹配指定泛化目标对应的标准问包括:
计算所述指定泛化目标与所述通用领域数据标注库中的所有标准问以及所有问题的相似度;以及
响应于所述指定泛化目标与一标准问或一问题的相似度最大且该相似度大于预设阈值,确定所述标准问或所述问题相关联的标准问为所述指定泛化目标对应的标准问。
14.如权利要求8或12所述的自动泛化方法,其特征在于,还包括:
将人工确认后的泛化实例放入所述指定泛化目标的泛化库。
15.一种自动泛化装置,用于基于指定泛化目标产生泛化实例,所述自动泛化装置包括:
获取模块,用于获取指定泛化目标,所述指定泛化目标为一具体语句实例;
匹配模块,与所述获取模块耦接并接收所述获取模块获取到的所述指定泛化目标,所述匹配模块为所述指定泛化目标匹配一预置知识库中的一标准问,所述预置知识库中包括多个知识点,每个知识点对应于一标准问,所述标准问关联有多个具体语义表达式来表示所述标准问;以及
泛化模块,与所述匹配模块耦接并获取所述匹配模块为所述指定泛化目标匹配成功的标准问,基于所述标准问及其关联的多个具体语义表达式生成多个泛化实例。
16.一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其特征在于,所述处理器被用于执行存储在所述存储器上的计算机程序时实现如权利要求1~14中任一项所述的自动泛化方法的步骤。
17.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-14中任一项所述自动泛化方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811611213.2A CN111400458A (zh) | 2018-12-27 | 2018-12-27 | 一种自动泛化方法及其装置 |
PCT/CN2019/128120 WO2020135462A1 (zh) | 2018-12-27 | 2019-12-25 | 一种自动泛化方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811611213.2A CN111400458A (zh) | 2018-12-27 | 2018-12-27 | 一种自动泛化方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111400458A true CN111400458A (zh) | 2020-07-10 |
Family
ID=71128696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811611213.2A Pending CN111400458A (zh) | 2018-12-27 | 2018-12-27 | 一种自动泛化方法及其装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111400458A (zh) |
WO (1) | WO2020135462A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507097A (zh) * | 2020-12-17 | 2021-03-16 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112527955A (zh) * | 2020-12-04 | 2021-03-19 | 广州橙行智动汽车科技有限公司 | 一种数据处理的方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833897B (zh) * | 2020-09-02 | 2023-08-22 | 合肥分贝工场科技有限公司 | 一种用于交互式教育的语音增强方法 |
CN112434141A (zh) * | 2020-11-11 | 2021-03-02 | 北京沃东天骏信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182454A (zh) * | 2014-07-04 | 2014-12-03 | 重庆科技学院 | 基于领域本体构建的多源异构数据语义集成的模型及方法 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN105912629A (zh) * | 2016-04-07 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN105912600A (zh) * | 2016-04-05 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
CN106295807A (zh) * | 2016-08-23 | 2017-01-04 | 上海智臻智能网络科技股份有限公司 | 一种信息处理的方法及装置 |
CN106649825A (zh) * | 2016-12-29 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 语音交互系统及其创建方法和装置 |
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN109063075A (zh) * | 2015-12-31 | 2018-12-21 | 上海智臻智能网络科技股份有限公司 | 优化抽象语义库的方法、装置及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440343B (zh) * | 2013-09-11 | 2014-11-05 | 武汉大学 | 一种面向领域服务目标的知识库构建方法 |
KR102033395B1 (ko) * | 2014-11-20 | 2019-10-18 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
CN105677637A (zh) * | 2015-12-31 | 2016-06-15 | 上海智臻智能网络科技股份有限公司 | 智能问答系统中抽象语义库的更新方法及更新装置 |
CN105678324B (zh) * | 2015-12-31 | 2019-03-26 | 上海智臻智能网络科技股份有限公司 | 基于相似度计算的问答知识库的建立方法、装置及系统 |
CN105608218B (zh) * | 2015-12-31 | 2018-11-27 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立系统 |
CN105868179B (zh) * | 2016-04-08 | 2018-07-13 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106445917B (zh) * | 2016-09-23 | 2019-02-19 | 中国电子科技集团公司第二十八研究所 | 一种基于模式的自举中文实体抽取方法 |
-
2018
- 2018-12-27 CN CN201811611213.2A patent/CN111400458A/zh active Pending
-
2019
- 2019-12-25 WO PCT/CN2019/128120 patent/WO2020135462A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182454A (zh) * | 2014-07-04 | 2014-12-03 | 重庆科技学院 | 基于领域本体构建的多源异构数据语义集成的模型及方法 |
CN109063075A (zh) * | 2015-12-31 | 2018-12-21 | 上海智臻智能网络科技股份有限公司 | 优化抽象语义库的方法、装置及存储介质 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN105912600A (zh) * | 2016-04-05 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
CN105912629A (zh) * | 2016-04-07 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106295807A (zh) * | 2016-08-23 | 2017-01-04 | 上海智臻智能网络科技股份有限公司 | 一种信息处理的方法及装置 |
CN106649825A (zh) * | 2016-12-29 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 语音交互系统及其创建方法和装置 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527955A (zh) * | 2020-12-04 | 2021-03-19 | 广州橙行智动汽车科技有限公司 | 一种数据处理的方法和装置 |
CN112507097A (zh) * | 2020-12-17 | 2021-03-16 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112507097B (zh) * | 2020-12-17 | 2022-11-18 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020135462A1 (zh) | 2020-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649825B (zh) | 语音交互系统及其创建方法和装置 | |
US11551007B2 (en) | Determining intent from a historical vector of a to-be-analyzed statement | |
WO2020147428A1 (zh) | 交互内容生成方法、装置、计算机设备及存储介质 | |
CN111159385B (zh) | 一种基于动态知识图谱的无模板通用智能问答方法 | |
CN107818781B (zh) | 智能交互方法、设备及存储介质 | |
CN106601237B (zh) | 交互式语音应答系统及其语音识别方法 | |
CN106649742B (zh) | 数据库维护方法和装置 | |
CN111400458A (zh) | 一种自动泛化方法及其装置 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
CN107885842B (zh) | 智能问答的方法、装置、服务器及存储介质 | |
Aleedy et al. | Generating and analyzing chatbot responses using natural language processing | |
CN110309280B (zh) | 一种语料扩容方法及相关设备 | |
US11636272B2 (en) | Hybrid natural language understanding | |
CN112527998A (zh) | 一种答复推荐方法、答复推荐装置及智能设备 | |
WO2022052484A1 (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN111104803B (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CN113722457A (zh) | 意图识别方法以及装置、存储介质、电子装置 | |
CN110765342A (zh) | 信息查询方法及装置、存储介质、智能终端 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN112115252A (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
CN115481222A (zh) | 语义向量提取模型的训练及语义向量表示方法、装置 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN111737425B (zh) | 一种应答方法、装置、服务器及存储介质 | |
CN114546326A (zh) | 一种虚拟人手语生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |