CN105893535B - 智能问答方法、知识库优化方法及装置、智能知识库 - Google Patents

智能问答方法、知识库优化方法及装置、智能知识库 Download PDF

Info

Publication number
CN105893535B
CN105893535B CN201610196021.4A CN201610196021A CN105893535B CN 105893535 B CN105893535 B CN 105893535B CN 201610196021 A CN201610196021 A CN 201610196021A CN 105893535 B CN105893535 B CN 105893535B
Authority
CN
China
Prior art keywords
formula
knowledge point
amendment
speech
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610196021.4A
Other languages
English (en)
Other versions
CN105893535A (zh
Inventor
曾永梅
李波
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201610196021.4A priority Critical patent/CN105893535B/zh
Publication of CN105893535A publication Critical patent/CN105893535A/zh
Application granted granted Critical
Publication of CN105893535B publication Critical patent/CN105893535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能问答方法及装置、知识库优化方法及装置、智能知识库。包括:提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;获取用户的输入信息;将输入信息与知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户,知识库包括模糊知识点,在进行语义相似度计算时,当除模糊知识点之外的其它知识点与输入信息的最大语义相似度值小于预设阈值时,才计算模糊知识点与输入信息的语义相似度,并在模糊知识点与输入信息的语义相似度大于预设阈值时将模糊知识点中的答案发送给用户。

Description

智能问答方法、知识库优化方法及装置、智能知识库
技术领域
本发明涉及计算机技术领域,特别是涉及一种智能问答方法及装置、知识库优化方法及装置、智能知识库。
背景技术
在问答系统中,知识库起着至关重要的作用,知识库包括多个知识点,每个知识点包括答案、一个标准问和/或对应于标准问的多个扩展问。标准问以及扩展问既可以采用普通问题形式,也可以采用语义表达式形式,两者根据是否包括词类进行区分。语义表达式中包括词类,词类是按照词的语义进行划分的,把一组相关的词组织在一起形成一个树状结构的词类库,在这个树状结构中的任意一个非叶子结点都称作一个词类(即,广义词类),其中直接包含词的第一k级词类称为狭义词类。狭义词类是对一组相关词的汇总,词类由词类名和一组相关词所组成。词类名是在这组相关词中具有标签作用的词,即词类的代表。一个词类中至少包含一个词(即词类本身)。定义词类的目的主要是为了分词、构造语义表达式以及使用其携带的语义信息进行语义相似度计算。
在现有技术中,每个知识点会有一个标准问,例如:你会干什么,针对这个标准问,会有与其对应的多个扩展问,例如:你[会]唱歌吗,你[会]跳舞吗,你[会]干活么,你[会]打球么等等。按照现有技术中写语义表达式的方法,必须把上面的扩展问都写成语义表达式,但是,并不能枚举完所有的动词。例如,用户问题还可能是你会洗衣服吗,你会擦地吗这些问题。因此,采用上述枚举的方式写扩展问,会出现以下问题:1、枚举的问题占用了很多存储资源;2、枚举的问题并不能够包含所有的动词,因此,智能问答过程中会出现无法提供正确答案的情况。
发明内容
鉴于现有技术中枚举的方式写语义表达式所导致的资源浪费和匹配失败的问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的智能问答方法及装置、知识库优化方法及装置、智能知识库。
本发明提供一种智能问答方法,包括:提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;获取用户的输入信息;将输入信息与知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户,知识库包括模糊知识点,在进行语义相似度计算时,当除模糊知识点之外的其它知识点与输入信息的最大语义相似度值小于预设阈值时,才计算模糊知识点与输入信息的语义相似度,并在模糊知识点与输入信息的语义相似度大于预设阈值时将模糊知识点中的答案发送给用户。
本发明还提供了一种知识库优化方法,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类,上述方法包括:对模糊知识点和/或非模糊知识点进行优先权标记,其中,优先权标记用于标识进行语义相似度计算的顺序;对模糊知识点中的语义表达式添加修正权重标记,修正权重标记用于调整各词类在该语义表达式中的重要程度。
本发明还提供了一种智能知识库,知识库包括模糊知识点和非模糊知识点,模糊知识点和/或非模糊知识点包括优先权标记,模糊知识点中的语义表达式包括修正权重标记,其中,优先权标记用于标识进行语义相似度计算的顺序,修正权重标记用于调整各词类在该语义表达式中的重要程度。
本发明还提供了一种智能问答装置,包括:知识库模块,用于提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;处理模块,用于获取用户的输入信息;将输入信息与知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户,知识库包括模糊知识点;处理模块具体用于:在进行语义相似度计算时,当除模糊知识点之外的其它知识点与输入信息的最大语义相似度值小于预设阈值时,才计算模糊知识点与输入信息的语义相似度,并在模糊知识点与输入信息的语义相似度大于预设阈值时将模糊知识点中的答案发送给用户。
本发明还提供了一种知识库优化装置,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类,装置包括:优先权标记模块,用于对模糊知识点和/或非模糊知识点进行优先权标记,其中,优先权标记用于标识进行语义相似度计算的顺序;修正权重标记模块,用于对模糊知识点中的语义表达式添加修正权重标记,修正权重标记用于调整各词类在该语义表达式中的重要程度。
本发明有益效果如下:
通过首先对非模糊知识点进行相似度计算后,再对模糊知识点进行相似度计算,解决了现有技术中枚举的方式写语义表达式所导致的资源浪费和匹配失败的问题,能够优化知识库的结构,提高语义理解的准确性,提高匹配成功率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的智能问答方法的流程图;
图2是本发明实施例的知识库优化方法的流程图;
图3是本发明装置实施例的智能问答装置的示意图;
图4是本发明装置实施例的知识库优化装置的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中枚举的方式写语义表达式所导致的资源浪费和匹配失败的问题,本发明提供了一种智能问答方法及装置、知识库优化方法及装置、智能知识库。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明实施例的技术方案,知识点中的语义表达式可以采用模糊知识点的形式进行表达。例如,将背景技术中“你会唱歌吗”、你会跳舞吗”、“你会干活吗”这一知识点中的所有扩展问采用[你][会]这一语义表达式进行表达,此时该知识点由于没有出现明确的动作行为,避免了枚举,因此称为模糊知识点。
发明人进一步研究发现,当采用模糊知识点解决无限枚举的技术问题时,还存在以下问题。以智能扫地机器人为例:当用户问题为“你会自己扫地吗”时,需要机器人给出的正确答案为:我就是小i智能扫地机,当然会扫地了;当用户问题为“你会打球吗”时(即除了扫地之外的其他动作时),需要机器人给出的正确答案为:我什么都会,我无所不能,哈哈哈。但是由于上述[你][会]这一模糊知识点的存在,导致用户问题为“你会自己扫地吗”时也给出“我什么都会,我无所不能,哈哈哈”,即被模糊知识点给抢了,因此用户所得到的答案并不是想要推送给用户的答案。
为了避免上面的问题,发明人在引入模糊知识点的同时,对不同知识点进行优先级标记。如上面例子中,设置“你会自己扫地吗”这一知识点的优先级高于“你会干什么”这一模糊知识点的优先级,从而只有当用户问题与优先级高的知识点的相似度值小于阈值时,才计算用户问题与优先级低的知识点之间的相似度值,最终避免了用户问题被模糊知识点给抢了的现象发生,提高了智能问答的准确率。
进一步地,还可以通过对模糊知识点的语义表达式添加修正权重标记,从而提高用户问题与模糊知识点的匹配成功率。
下面通过多个实施例来详细说明本发明的技术方案。
方法实施例一
根据本发明的实施例,提供了一种智能问答方法,图1是本发明实施例的智能问答方法的流程图,如图1所示,根据本发明实施例的智能问答方法包括如下处理:
步骤101,提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;其中,知识库还包括模糊知识点。
在步骤101中,知识库中的知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对,其中,该“问”就是标准问,该“答”就是答案。例如,“彩铃的资费”就是表达清晰的标准问描述。知识库里的每个知识点还可以有对应于一个标准问的扩展问,该扩展问与标准问表达形式略有差异,但是表达的含义相同。其中,知识点中的标准问和扩展问可以采用语义表达式进行表达。
语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于词类,词类即为一组有共性的词,为了区分语义表达式中的词与词类,在语义表达式中,词类可以出现在方括号“[]”中,需要说明的是,在本发明实施例中,方括号中出现的词类一般为“狭义词类”,在实际应用中,也可通过配置系统参数以支持“广义词类”。此外,语义表达式与用户问句(即输入信息)之间关系是通过量化的值即相似度来表示的。
在本发明实施例中,模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括部分清晰表达该标准问或扩展问其含义的词或词类。例如,标准问为:你会干什么,,则模糊知识点的语义表达式只包括[你][会]这两个词类;再例如,扩展问为:你会唱歌吗,其模糊知识点的语义表达式也只包括[你][会]这两个词类。而针对“你会唱歌吗”的非模糊知识点的语义表达式至少包括:[你][会][唱歌]这三个词类。
优选地,在本发明实施例中,模糊知识点中的语义表达式包括修正权重标记,具体地,该修正权重标记用于调整所标记的语义表达式的权重。优选地,可以使用“&n”表示修正权重标记。在进行语义相似度计算时,根据修正权重标记对对应的语义表达式中的每个词类的原始权重进行修正处理。其中,修正权重标记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0,如:10%、20%、50%、90%等。
需要说明的是,不同模糊知识点的修正系数可以相同,也可以不同。
具体地,在本发明实施例中,原始权重通过以下方式进行计算:
根据公式1计算特定词或词类的文档频率idf:
idf=1+log(N/(n1+1)) 公式1;
其中,N为知识库中的总知识点数,n1为特定词或词类出现的知识点数;
根据公式2计算特定词或词类的词频tf:
tf=sqrt(n’/N’) 公式2;
其中,N’为特定词或词类所在知识点的词以及词类的总数,n’为该知识点中出现特定词或词类的数;
根据公式3计算特定词或词类的原始权重w:
w=idf*tf 公式3;
修正处理后的权重通过以下方式获得:
当修正趋势为增加时,根据公式4确定修正处理后的权重w’,当修正趋势为缩减时,根据公式5确定修正处理后的权重w’;
w’=w+w*n2 公式4;
w’=w-w*n2 公式5;
其中:w为原始权重,n2为修正系数。
步骤102,获取用户的输入信息;该输入信息可以是用户提问。
步骤103,将输入信息与知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户,其中,在进行语义相似度计算时,当除模糊知识点之外的其它知识点与输入信息的最大语义相似度值小于预设阈值时,才计算模糊知识点与输入信息的语义相似度,并在模糊知识点与输入信息的语义相似度大于预设阈值时将模糊知识点中的答案发送给用户。
也就是说,在步骤103中,优先将输入信息和非模糊知识点进行语义相似度计算,如果未匹配上,则将输入信息和模糊知识点进行语义相似度计算。
在上述计算相似度时,任一标准问或扩展问可以描述为由组成标准问或扩展问的n个词(或词类)的权重构成的n维向量di=(W11,W12,…,W1n);用户问句可以描述为由组成问句的词的权重构成的另一个n维向量d=(W21,W22,…,W2n),W1n和W2n为原始权重,此时,需要根据修正权重标记对对应的词类的原始权重进行修正处理,其中,当修正趋势为增加时,修正处理后的权重W1k和W2k为:W1k=W1n+W1n*n2,W2k=W2n+W2n*n2;当修正趋势为缩减时,修正处理后的权重W1k和W2k为:W1k=W1n-W1n*n2,W2k=W2n-W2n*n2;其中:n2为修正系数。根据上述修正处理,W1k和W2k为对词类进行权重修正后的权重。如公式6所示,用户问句和标准问或扩展问的相似度可以利用各自转化形成的向量在n维空间的向量夹角余弦来计算。
用户问句和知识点中问题的相似度可以用公式7计算。
Sim(d,D)=Max[Sim(d,di∈D)] 公式7;
其中,D为目标文档(知识库),di为目标文档中的标准问、扩展问或语义表达式展开后的简单模板。
需要说明的是,在本发明的其它实施例中,还可以采用其它方法进行相似度计算,其不限制本发明的保护范围。
以下以扫地机的智能机器人为例,对本发明实施例的上述技术方案进行举例说明。
在扫地机的智能机器人的知识库中,有如下模糊知识点:
标准问1:你会干什么。
标准问1的扩展问:采用的语义表达式为:&n[你][会]
标准问1的答案为:我什么都会,我无所不能,哈哈哈。
标准问2:你会自己扫地吗?
标准问2的答案为:我就是小i智能扫地机,当然会扫地了。
用户的输入信息为:你会扫地吗?
此时,由于用&n表示的语义表达式[你][会]在进行语义相似度计算时,会根据n的值对该语义表达式最终计算出来的语义相似度再乘以一个系数,起到增加语义相似度的作用,此时,如果不先计算非模糊知识点的语义相似度,则很可能就会将输入信息与标准问1进行匹配,从而给用户推送的答案为:我什么都会,我无所不能,哈哈哈。而实际上,与输入信息进行匹配的应该是标准问2,向用户推送的答案应该是:我就是小i智能扫地机,当然会扫地了。
为了解决上述问题,在本发明实施例中,可以在语义表达式上给出一个优先级标记,如“-”,表示在这类语义表达式会降低一个优先级参与计算,只有当非模糊语义表达式的语义相似度都没有达到设定的阈值,才会计算“-”的这类模糊知识点的语义表达式。此外,“&n”表示修正权重标记,在进行相似度计算式,会提高该语义表达式的权重,从而提高语义相似度的值。因此,带有&n-的表达式,除了会降低计算优先级,还会提高相似度的值。
在上述例子中,根据用户输入“你会扫地吗?”会首先和非模糊知识点即标准问2进行匹配,此时,根据语义相似度判断匹配成功,则会将“我就是小i智能扫地机,当然会扫地了”推送给用户作为答案,从而提高了匹配的成功率。
方法实施例二
根据本发明的实施例,提供了一种知识库优化方法,图2是本发明实施例的知识库优化方法的流程图,如图2所示,根据本发明实施例的知识库优化方法包括如下处理:
步骤201,对模糊知识点和/或非模糊知识点进行优先权标记,其中,优先权标记用于标识进行语义相似度计算的顺序;
需要说明的是,在本发明实施例中,上述模糊知识点和非模糊知识点设置于知识库中,知识库包括多个模糊知识点和非模糊知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类。
在步骤201中,可以仅对模糊知识点采用低优先权标记;也可以仅对非模糊知识点采用高优先权标记,或者,同时对模糊知识点采用低优先权标记,对非模糊知识点采用高优先权标记。优选地,低优先权标记可以采用减号表示,高优先权标记可以采用加号表示。
步骤202,对模糊知识点中的语义表达式添加修正权重标记,修正权重标记用于调整各词类在该语义表达式中的重要程度。
在本发明实施例中,修正权重标记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0。
其中,修正权重标记通过以下方式确定:
1、提供一个或多个测试问;
2、调整修正权重标记直至通过语义相似度计算从知识库中为每个测试问提供正确的答案。也就是说,本发明实施例的技术方案还可以对带有权重标记的语义表达式的权重系数进行调整。
在本发明实施例中,修正权重标记可以采用“&n”表示,针对模糊知识点,可以采用“&n-”表示该模糊知识点的优先级和权重修正。
综上,借助于本发明实施例的技术方案,通过对语义表达式添加优先权标记和修正权重标记,能够对知识库的结构进行优化。
装置实施例一
根据本发明的实施例,提供了一种智能知识库,知识库包括模糊知识点和非模糊知识点,模糊知识点和/或非模糊知识点包括优先权标记,模糊知识点中的语义表达式包括修正权重标记,其中,优先权标记用于标识进行语义相似度计算的顺序,修正权重标记用于调整各词类在该语义表达式中的重要程度。修正权重标记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0。
在本发明实施例中,模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括部分清晰表达该标准问或扩展问其含义的词或词类。例如,标准问为:你会干什么,,则模糊知识点的语义表达式只包括[你][会]这两个词类;再例如,扩展问为:你会唱歌吗,其模糊知识点的语义表达式也只包括[你][会]这两个词类。而针对“你会唱歌吗”的非模糊知识点的语义表达式至少包括:[你][会][唱歌]这三个词类。
优选地,在本发明实施例中,模糊知识点中的语义表达式包括修正权重标记,具体地,该修正权重标记用于调整所标记的语义表达式的权重。优选地,可以使用“&n”表示修正权重标记。在进行语义相似度计算时,根据修正权重标记对对应的语义表达式中的每个词类的原始权重进行修正处理。其中,修正权重标记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0。
此外,可以仅对模糊知识点采用低优先权标记;也可以仅对非模糊知识点采用高优先权标记;或者,同时对模糊知识点采用低优先权标记,对非模糊知识点采用高优先权标记。优选地,低优先权标记可以采用减号表示,高优先权标记可以采用加号表示。
修正权重标记可以采用“&n”表示,针对模糊知识点,可以采用“&n-”表示该模糊知识点的优先级和权重修正。
装置实施例二
根据本发明的实施例,提供了一种智能问答装置,图3是本发明装置实施例的智能问答装置的示意图,如图3所示,根据本发明实施例的智能问答方法装置包括:知识库模块30、以及处理模块32,以下结合附图,对本发明实施例的上述模块进行详细说明。
知识库模块30,用于提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;其中,知识库还包括模糊知识点。
知识库中的知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对,其中,该“问”就是标准问,该“答”就是答案。例如,“彩铃的资费”就是表达清晰的标准问描述。知识库里的每个知识点还可以有对应于一个标准问的扩展问,该扩展问与标准问表达形式略有差异,但是表达的含义相同。其中,知识点中的标准问和扩展问可以采用语义表达式进行表达。
语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于词类,词类即为一组有共性的词,为了区分语义表达式中的词与词类,在语义表达式中,词类可以出现在方括号“[]”中,需要说明的是,在本发明实施例中,方括号中出现的词类一般为“狭义词类”,在实际应用中,也可通过配置系统参数以支持“广义词类”。此外,语义表达式与用户问句(即输入信息)之间关系是通过量化的值即相似度来表示的。
在本发明实施例中,模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括部分清晰表达该标准问或扩展问其含义的词或词类。例如,标准问为:你会干什么,,则模糊知识点的语义表达式只包括[你][会]这两个词类;再例如,扩展问为:你会唱歌吗,其模糊知识点的语义表达式也只包括[你][会]这两个词类。而针对“你会唱歌吗”的非模糊知识点的语义表达式至少包括:[你][会][唱歌]这三个词类。
优选地,在本发明实施例中,模糊知识点中的语义表达式包括修正权重标记,具体地,该修正权重标记用于调整所标记的语义表达式的权重。优选地,可以使用“&n”表示修正权重标记。其中,修正权重标记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0。
处理模块32,用于获取用户的输入信息;将输入信息与知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户,其特征在于,知识库包括模糊知识点;其中,在进行语义相似度计算时,当除模糊知识点之外的其它知识点与输入信息的最大语义相似度值小于预设阈值时,才计算模糊知识点与输入信息的语义相似度,并在模糊知识点与输入信息的语义相似度大于预设阈值时将模糊知识点中的答案发送给用户。
处理模块32进一步用于:在进行语义相似度计算时,根据修正权重标记对对应的语义表达式中的每个词类的原始权重进行修正处理。
处理模块具32通过以下方式进行原始权重的计算:
根据公式1计算特定词或词类的文档频率idf:
idf=1+log(N/(n1+1)) 公式1;
其中,N为知识库中的总知识点数,n1为特定词或词类出现的知识点数;
根据公式2计算特定词或词类的词频tf:
tf=sqrt(n’/N’) 公式2;
其中,N’为特定词或词类所在知识点的词以及词类的总数,n’为该知识点中出现特定词或词类的数;
根据公式3计算特定词或词类的原始权重w:
w=idf*tf 公式3;
处理模块进一步用于:
通过以下方式对原始权重进行修正:
当修正趋势为增加时,根据公式4确定修正处理后的权重w’,当修正趋势为缩减时,根据公式5确定修正处理后的权重w’;
w’=w+w*n2 公式4;
w’=w-w*n2 公式5;
其中:w为原始权重,n2为修正系数。
也就是说,处理模块32优先将输入信息和非模糊知识点进行语义相似度计算,如果未匹配上,则将输入信息和模糊知识点进行语义相似度计算。
在上述计算相似度时,任一标准问或扩展问可以描述为由组成标准问或扩展问的n个词(或词类)的权重构成的n维向量di=(W11,W12,…,W1n);用户问句可以描述为由组成问句的词的权重构成的另一个n维向量d=(W21,W22,…,W2n),W1n和W2n为原始权重,此时,需要根据修正权重标记对对应的词类的原始权重进行修正处理,其中,当修正趋势为增加时,修正处理后的权重W1k和W2k为:W1k=W1n+W1n*n2,W2k=W2n+W2n*n2;当修正趋势为缩减时,修正处理后的权重W1k和W2k为:W1k=W1n-W1n*n2,W2k=W2n-W2n*n2;其中:n2为修正系数。根据上述修正处理,W1k和W2k为对词类进行权重修正后的权重。如公式6所示,用户问句和标准问或扩展问的相似度可以利用各自转化形成的向量在n维空间的向量夹角余弦来计算。
用户问句和知识点中问题的相似度可以用公式7计算。
Sim(d,D)=Max[Sim(d,di∈D)] 公式7;
其中,D为目标文档(知识库),di为目标文档中的标准问、扩展问或语义表达式展开后的简单模板。
需要说明的是,在本发明的其它实施例中,还可以采用其它方法进行相似度计算,其不限制本发明的保护范围。
装置实施例三
根据本发明的实施例,提供了一种知识库优化装置,图4是本发明装置实施例的知识库优化装置的示意图,如图4所示,根据本发明实施例的知识库优化装置包括:优先权标记模块40、以及修正权重标记模块42,以下结合附图,对本发明实施例的上述模块进行详细说明。
优先权标记模块40,用于对模糊知识点和/或非模糊知识点进行优先权标记,其中,优先权标记用于标识进行语义相似度计算的顺序;
具体地,模糊知识点和/或非模糊知识点设置于知识库中,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类。
优先权标记模块40可以仅对模糊知识点采用低优先权标记;也可以仅对非模糊知识点采用高优先权标记;或者,同时对对模糊知识点采用低优先权标记,对非模糊知识点采用高优先权标记。优选地,低优先权标记可以采用减号表示,高优先权标记可以采用加号表示。
修正权重标记模块42,用于对模糊知识点中的语义表达式添加修正权重标记,修正权重标记用于调整各词类在该语义表达式中的重要程度。
其中,修正权重标记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0。
修正权重标记模块42具体用于:
1、提供一个或多个测试问;
2、调整修正权重标记直至通过语义相似度计算从知识库中为每个测试问提供正确的答案。也就是说,本发明实施例的技术方案还可以对带有权重标记的语义表达式的权重系数进行调整。
在本发明实施例中,修正权重标记可以采用“&n”表示,针对模糊知识点,可以采用“&n-”表示该模糊知识点的优先级和权重修正。
综上所述,借助于本发明实施例的技术方案,通过首先对非模糊知识点进行相似度计算后,再对模糊知识点进行相似度计算,解决了现有技术中在某些情况下会对输入信息的语义理解产生错误的问题,能够优化知识库的结构,提高语义理解的准确性,提高匹配成功率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

Claims (16)

1.一种智能问答方法,包括:提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,所述问题包括标准问或者标准问和对应于标准问的多个扩展问,至少部分数目的问题采用语义表达式,其余问题采用普通问题形式,所述语义表达式包括词类,所述词类为一组有共性的词;获取用户的输入信息;将所述输入信息与所述知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将所述最大语义相似度值对应的知识点中的答案发送给用户,其特征在于,所述知识库包括模糊知识点,所述模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括清晰表达该标准问或扩展问其含义的部分词或词类,在进行语义相似度计算时,当除模糊知识点之外的其它知识点与所述输入信息的最大语义相似度值小于预设阈值时,才计算所述模糊知识点与所述输入信息的语义相似度,并在所述模糊知识点与所述输入信息的语义相似度大于预设阈值时将所述模糊知识点中的答案发送给用户。
2.如权利要求1所述的方法,其特征在于,还包括:所述模糊知识点中的语义表达式包括修正权重标记,在进行语义相似度计算时,根据所述修正权重标记对对应的语义表达式中的每个词类的原始权重进行修正处理。
3.如权利要求2所述的方法,其特征在于,所述修正权重标记包括修正趋势以及修正系数,所述修正趋势为增加或缩减,所述修正系数大于0。
4.如权利要求3所述的方法,其特征在于,所述原始权重通过以下方式进行计算:
根据公式1计算特定词或词类的文档频率idf:
idf=1+log(N/(n1+1)) 公式1;
其中,N为知识库中的总知识点数,n1为特定词或词类出现的知识点数;
根据公式2计算特定词或词类的词频tf:
tf=sqrt(n’/N’) 公式2;
其中,N’为特定词或词类所在知识点的词以及词类的总数,n’为该知识点中出现特定词或词类的数;
根据公式3计算特定词或词类的原始权重w:
w=idf*tf 公式3;
当修正趋势为增加时,根据公式4确定修正处理后的权重w’,当修正趋势为缩减时,根据公式5确定修正处理后的权重w’;
w’=w+w*n2 公式4;
w’=w-w*n2 公式5;
其中:w为原始权重,n2为修正系数。
5.一种知识库优化方法,所述知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,所述问题包括标准问或者标准问和对应于标准问的多个扩展问,至少部分数目的问题采用语义表达式,其余问题采用普通问题形式,所述语义表达式包括词类,所述词类为一组有共性的词,其特征在于,所述方法包括:
对模糊知识点和/或非模糊知识点进行优先权标记,其中,所述优先权标记用于标识进行语义相似度计算的顺序;所述模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括清晰表达该标准问或扩展问其含义的部分词或词类,
对模糊知识点中的语义表达式添加修正权重标记,所述修正权重标记用于调整各词类在该语义表达式中的重要程度。
6.如权利要求5所述的方法,其特征在于,所述修正权重标记包括修正趋势以及修正系数,所述修正趋势为增加或缩减,所述修正系数大于0。
7.如权利要求5所述的方法,其特征在于,所述修正权重标记通过以下方式确定:
提供一个或多个测试问;
调整所述修正权重标记直至通过语义相似度计算从所述知识库中为每个所述测试问提供正确的答案。
8.一种智能知识库,其特征在于,所述知识库包括模糊知识点和非模糊知识点,所述模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括清晰表达该标准问或扩展问其含义的部分词或词类,所述词类为一组有共性的词,所述模糊知识点和/或非模糊知识点包括优先权标记,所述模糊知识点中的语义表达式包括修正权重标记,其中,所述优先权标记用于标识进行语义相似度计算的顺序,所述修正权重标记用于调整各词类在该语义表达式中的重要程度。
9.如权利要求8所述的智能知识库,其特征在于,所述修正权重标记包括修正趋势以及修正系数,所述修正趋势为增加或缩减,所述修正系数大于0。
10.一种智能问答装置,包括:知识库模块,用于提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,所述问题包括标准问或者标准问和对应于标准问的多个扩展问,至少部分数目的问题采用语义表达式,其余问题采用普通问题形式,所述语义表达式包括词类,所述词类为一组有共性的词;处理模块,用于获取用户的输入信息;将所述输入信息与所述知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将所述最大语义相似度值对应的知识点中的答案发送给用户,其特征在于,所述知识库包括模糊知识点,所述模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括清晰表达该标准问或扩展问其含义的部分词或词类;
所述处理模块具体用于:在进行语义相似度计算时,当除模糊知识点之外的其它知识点与所述输入信息的最大语义相似度值小于预设阈值时,才计算所述模糊知识点与所述输入信息的语义相似度,并在所述模糊知识点与所述输入信息的语义相似度大于预设阈值时将所述模糊知识点中的答案发送给用户。
11.如权利要求10所述的装置,其特征在于,所述模糊知识点中的语义表达式包括修正权重标记;
所述处理模块进一步用于:在进行语义相似度计算时,根据所述修正权重标记对对应的语义表达式中的每个词类的原始权重进行修正处理。
12.如权利要求11所述的装置,其特征在于,所述修正权重标记包括修正趋势以及修正系数,所述修正趋势为增加或缩减,所述修正系数大于0。
13.如权利要求12所述装置,其特征在于,
所述处理模块具体用于:
通过以下方式进行所述原始权重的计算:
根据公式1计算特定词或词类的文档频率idf:
idf=1+log(N/(n1+1)) 公式1;
其中,N为知识库中的总知识点数,n1为特定词或词类出现的知识点数;
根据公式2计算特定词或词类的词频tf:
tf=sqrt(n’/N’) 公式2;
其中,N’为特定词或词类所在知识点的词以及词类的总数,n’为该知识点中出现特定词或词类的数;
根据公式3计算特定词或词类的原始权重w:
w=idf*tf 公式3;
所述处理模块进一步用于:
通过以下方式对所述原始权重进行修正:
当修正趋势为增加时,根据公式4确定修正处理后的权重w’,当修正趋势为缩减时,根据公式5确定修正处理后的权重w’;
w’=w+w*n2 公式4;
w’=w-w*n2 公式5;
其中:w为原始权重,n2为修正系数。
14.一种知识库优化装置,所述知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,所述问题包括标准问或者标准问和对应于标准问的多个扩展问,至少部分数目的问题采用语义表达式,其余问题采用普通问题形式,所述语义表达式包括词类,所述词类为一组有共性的词,其特征在于,所述装置包括:
优先权标记模块,用于对模糊知识点和/或非模糊知识点进行优先权标记,其中,所述优先权标记用于标识进行语义相似度计算的顺序;所述模糊知识点是指:标准问或扩展问的语义表达式并不是完整的,即只包括清晰表达该标准问或扩展问其含义的部分词或词类,
修正权重标记模块,用于对模糊知识点中的语义表达式添加修正权重标记,所述修正权重标记用于调整各词类在该语义表达式中的重要程度。
15.如权利要求14所述的装置,其特征在于,所述修正权重标记包括修正趋势以及修正系数,所述修正趋势为增加或缩减,所述修正系数大于0。
16.如权利要求14所述的装置,其特征在于,所述修正权重标记模块具体用于:
通过以下方式确定所述修正权重标记:
提供一个或多个测试问;
调整所述修正权重标记直至通过语义相似度计算从所述知识库中为每个所述测试问提供正确的答案。
CN201610196021.4A 2016-03-31 2016-03-31 智能问答方法、知识库优化方法及装置、智能知识库 Active CN105893535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610196021.4A CN105893535B (zh) 2016-03-31 2016-03-31 智能问答方法、知识库优化方法及装置、智能知识库

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610196021.4A CN105893535B (zh) 2016-03-31 2016-03-31 智能问答方法、知识库优化方法及装置、智能知识库

Publications (2)

Publication Number Publication Date
CN105893535A CN105893535A (zh) 2016-08-24
CN105893535B true CN105893535B (zh) 2019-08-02

Family

ID=57014234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610196021.4A Active CN105893535B (zh) 2016-03-31 2016-03-31 智能问答方法、知识库优化方法及装置、智能知识库

Country Status (1)

Country Link
CN (1) CN105893535B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599312B (zh) * 2016-12-29 2020-02-21 上海智臻智能网络科技股份有限公司 知识库的检验方法、装置及终端
CN106599317B (zh) * 2016-12-30 2019-08-27 上海智臻智能网络科技股份有限公司 问答系统的测试数据处理方法、装置及终端
CN109033110B (zh) * 2017-06-12 2023-10-03 贵州小爱机器人科技有限公司 知识库中的扩展问质量测试方法和装置
CN109829037A (zh) * 2017-11-22 2019-05-31 上海智臻智能网络科技股份有限公司 智能自动问答的方法、系统、服务器及存储介质
CN109858007B (zh) * 2017-11-30 2024-02-02 上海智臻智能网络科技股份有限公司 语义分析问答方法和装置、计算机设备和存储介质
CN110019838A (zh) * 2017-12-25 2019-07-16 上海智臻智能网络科技股份有限公司 智能问答系统及智能终端
CN110019730A (zh) * 2017-12-25 2019-07-16 上海智臻智能网络科技股份有限公司 自动交互系统及智能终端
CN108510292A (zh) * 2018-03-26 2018-09-07 国家电网公司客户服务中心 用于电力呼叫服务中故障场景问题的自动流程辅助方法
CN109460823A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 知识库的构建方法及其装置、电子设备、计算机可读介质
CN109857846B (zh) * 2019-01-07 2023-06-20 创新先进技术有限公司 用户问句与知识点的匹配方法和装置
CN113094485A (zh) * 2021-04-08 2021-07-09 思必驰科技股份有限公司 知识库优化方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790332A (zh) * 2005-12-28 2006-06-21 刘文印 一种问题答案的阅读浏览显示方法及其系统
CN103377245B (zh) * 2012-04-27 2018-09-11 深圳市世纪光速信息技术有限公司 一种自动问答方法及装置
US9292597B2 (en) * 2013-10-24 2016-03-22 International Business Machines Corporation Smart question routing and answerer growing for online community question-answer services
CN104933084B (zh) * 2015-05-04 2018-11-09 上海智臻智能网络科技股份有限公司 一种用于获得答案信息的方法、装置和设备

Also Published As

Publication number Publication date
CN105893535A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893535B (zh) 智能问答方法、知识库优化方法及装置、智能知识库
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
US11080492B2 (en) Method and device for correcting error in text
US11157818B2 (en) Model training method and apparatus based on gradient boosting decision tree
US20210193108A1 (en) Voice synthesis method, device and apparatus, as well as non-volatile storage medium
CN105893476B (zh) 智能问答方法、知识库优化方法及装置、智能知识库
CN110096434A (zh) 一种接口测试方法及装置
JP2004086913A (ja) 2言語コーパスを整列させるための方法および装置
CN109857475A (zh) 一种框架管理的方法及装置
CN109308895B (zh) 声学模型训练方法、装置、设备及计算机可读介质
CN109688428B (zh) 视频评论生成方法和装置
JP2020520609A5 (zh)
CN116860949B (zh) 问答处理方法、装置、系统、计算设备及计算机存储介质
CN110288007A (zh) 数据标注的方法、装置及电子设备
US20230177089A1 (en) Identifying similar content in a multi-item embedding space
CN109271380A (zh) 一种数据表海量数据校验方法及终端设备
CN108280127A (zh) 一种海量相似新闻查重甄选方法、系统及装置
CN110489131B (zh) 一种灰度用户选取方法及装置
CN111950579A (zh) 分类模型的训练方法和训练装置
US20200074319A1 (en) Knowledge graph weighting during chatbot sessions
CN108804315A (zh) 应用于动态开发的测试方法、装置、电子设备及存储介质
JP2015153261A (ja) 対話文生成装置、対話文生成方法およびプログラム
CN113672389A (zh) 一种服务器兼容方法、系统、设备及计算机可读存储介质
CN114021565A (zh) 命名实体识别模型的训练方法及装置
CN113536809A (zh) 一种基于语义的无监督常识问答方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Intelligent question and answer method, knowledge base optimization method and device, intelligent knowledge base

Effective date of registration: 20221124

Granted publication date: 20190802

Pledgee: Shanghai Lingang Financial Leasing Co.,Ltd.

Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Registration number: Y2022980023447

PE01 Entry into force of the registration of the contract for pledge of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160824

Assignee: Shanghai Lingang Financial Leasing Co.,Ltd.

Assignor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Contract record no.: X2022980023270

Denomination of invention: Intelligent question and answer method, knowledge base optimization method and device, intelligent knowledge base

Granted publication date: 20190802

License type: Exclusive License

Record date: 20221128

EE01 Entry into force of recordation of patent licensing contract