CN105630887A - 中文问答系统知识标记语言的表示方法及中文问答系统 - Google Patents

中文问答系统知识标记语言的表示方法及中文问答系统 Download PDF

Info

Publication number
CN105630887A
CN105630887A CN201510958742.XA CN201510958742A CN105630887A CN 105630887 A CN105630887 A CN 105630887A CN 201510958742 A CN201510958742 A CN 201510958742A CN 105630887 A CN105630887 A CN 105630887A
Authority
CN
China
Prior art keywords
answer
knowledge
answering system
question answering
expressing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510958742.XA
Other languages
English (en)
Other versions
CN105630887B (zh
Inventor
游世学
杜新凯
王丙栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Huilian Technology Co Ltd
Original Assignee
Beijing Zhongke Huilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Huilian Technology Co Ltd filed Critical Beijing Zhongke Huilian Technology Co Ltd
Priority to CN201510958742.XA priority Critical patent/CN105630887B/zh
Publication of CN105630887A publication Critical patent/CN105630887A/zh
Application granted granted Critical
Publication of CN105630887B publication Critical patent/CN105630887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种中文问答系统知识标记语言的表示方法及中文问答系统,该方法包括:所述中文问答系统知识标记语言的表示方法包括:知识的基本表示方法,知识的语义表示方法,知识模板的表示和实例化方法,知识的引用与关联方法,知识中命名实体的表示和消歧方法,知识中表情、数学、超文本符号和时间的表示方法,本发明还提供了一种所述中文问答系统使用上述的表示方法。本发明以推动中文问答系统在科研界和企业界的进一步研究和应用。<!-- 2 -->

Description

中文问答系统知识标记语言的表示方法及中文问答系统
技术领域
本发明涉及自然语言处理领域,尤其是一种中文问答系统知识标记语言的表示方法及中文问答系统。
背景技术
近年来,随着移动互联网的迅猛发展和人工智能技术的持续创新,国内外IT公司纷纷推出各种智能机器人产品,如以苹果Siri,GOOGLENow,微软小冰,百度语音助手为代表的聊天机器人,可以满足人们日常生活和聊天情感方面的需要;以中科汇联微喂和爱客服为代表的客服机器人,可以满足政府、企业为用户提供准确、便捷、低成本的专业服务的需要。智能机器人的纷纷涌现和广泛应用,使得智能机器人技术,与基因工程,纳米科学一起被并称为21世纪三大尖端技术,成为基础性、战略性的技术,能够对生产生活方式产生革命性的影响。智能机器人技术的基础核心为自然语言处理领域中的问答系统相关技术。通用的问答系统有四个主要组成部分:知识库,问题理解,知识检索和答案生成。知识库存放了问答系统的所有知识,是问答系统的中枢;问题理解实现对用户提问的语义层次的解析和表示;知识检索实现从知识库中检索与用户提问语义相关的候选知识;答案生成基于候选知识,经过分析、推理生成最终的答案。这四个部分都与问答系统的知识表示息息相关。然而,科研界和企业界尚未提出一种针对中文领域问答系统的知识表示方法。这种现状,制约了中文问答系统技术的深入研究与广泛应用。
因此,有必要提出一种新的技术方案。
发明内容
针对上述问题,本发明提出一种中文问答系统知识标记语言的表示方法,用于中文问答系统的知识表示,以推动中文问答系统在科研界和企业界的进一步研究和应用。
本发明提供一种中文问答系统知识标记语言的表示方法,所述中文问答系统知识标记语言的表示方法包括:知识的基本表示方法,知识的语义表示方法,知识模板的表示和实例化方法,知识的引用与关联方法,知识中命名实体的表示和消歧方法,知识中表情、数学、超文本符号和时间的表示方法。
进一步的,所述知识的基本表示方法包括:知识主要由ID、参数和知识体构成,知识的ID使用“<实例名_属性名>”表示,ID后面的“{}”内部为知识体定义,所述知识体包括问题域和答案域,问题域在先,以“<#q>”开头,答案域在后,以“<#a>”开头,所述知识中的注释以“//”开头到本行行尾,如果是多行注释,每行都要以“//”开头。
进一步的,所述知识的语义表示方法包括:是将知识组织成一排有序的语义表达式词块,词块之间以单个空格分隔;简单词块是句子的分词,复杂词块是通过在分词上添加语义表达式标记构成,所述复杂词块包括关键词、同义词和语序相关;
关键词使用“[]”表示;
如果关键词语序与语句的语义强相关,则使用“{}”将这些语序相关的关键词包括起来;
在答案内部,使用答案变量来表示变化的内容,答案变量的表示方法是“${变量名}”;
在问题域和答案域中,多个问题或答案之间用“<|>”隔开;
如果问题域中有多个问题,则第一个问题为标准问题,后续问题为扩展问题,所述扩展问题即标准问题的其它问法;
如果答案域中多个答案,则第一个答案为标准答案,后续答案为扩展答案,每个答案都正确,在无特定条件限制时问答系统随机给出答案;
同一个问题,在特定条件限制下,有特定的答案,对于这类答案,通过“[]”表示特定条件,通过“:”表示条件及其答案之间的分隔符;当无法确定提问满足的条件时,问答系统支持反问或者枚举。
进一步的,所述知识模板的表示和实例化方法包括:知识模板的表示方法是在知识的表示方法的基础上增加了对模板参数的表示,知识模板的ID使用“<实例名_属性名|模板参数1,模板参数2,...>”表示,多个模板参数之间使用英文半角“,”隔开,在实例名、属性名和知识体中,使用“%模板参数名%”表示对模板参数的引用;
实例化方法包括:在ID和知识体之间,用“()”括起来的部分表示对模板的继承和对模板参数的实例化,如果新的知识没有将模板中所有的参数都实例化,或者又引入了新的模板参数,则新的知识依然为模板,并在ID中列出需要实例化的模板参数,从模板派生的知识,继承了原模板的问答域和答案域,并能进行改写,在改写时,能通过“${super.q}”和“${super.a}”分别引用原问题和答案。
进一步的,知识的引用与关联方法包括:在答案域中,通过“%{知识ID}”能引用其它的知识的答案,如果用户提问的知识中引用了其它知识,则在生成答案时,结合上下文嵌入所引知识的答案;
在答案域中,通过“{标签:知识ID}”能链接其它知识的问题;问答系统在显示答案时,如果答案中包含链接,则将链接的标签展示给用户,用户点击链接,问答系统给所链接知识的答案。
进一步的,知识中命名实体的表示和消歧方法包括:对于存在歧义的命名实体,通过“#命名实体本体类#”的方式进行消歧,“##”中间表示命名实体,所述命名实体包括人名,地名,机构名,品牌名,产品型号,上下位词;
在本体资源描述文件和实例资源描述文件中对“##”表示的命名实体进行进一步的描述,所述命名实体包括实体的具体类别、本体的属性、实例的属性值。
进一步的,知识中表情、数学、超文本符号和时间的表示方法包括:
使用“:)表情的拼音首字母缩写)”表示表情;
对时间的表示方法如下:
年月日:YYYY年MM月DD日;
时分秒:HH时MM分SS秒;
星期:周一,周二,周三,周四,周五,周六,周日;
其它:今日,明日,昨日。
本发明还提供一种中文问答系统,所述系统使用上述的知识标记语言的表示方法,
所述系统包括:
问题输入模块,用于输入用户提出的问题;
问题提交模块,用于提交用户输入的问题;
问题归一化处理模块,用于对提交的问题进行问题归一化处理;
搜索模块,用于搜索知识并进行问题匹配,获得与问题相匹配的答案;
处理答案模块,用于处理答案中的语义表达式,生成答案,并将结果返回至问答系统界面,若不存在与问题相匹配的答案,则直接将结果返回至问答系统界面;
查找链接模块,用于在问答系统界面显示的结果中查找链接,若返回的结果中不存在链接,则将结果显示在问答系统界面;
答案转换模块,用于将结果中的链接转换为HTML组件。
进一步的,采用问题归一化处理模块对问题归一化处理的步骤如下:
S11、删除问句中的HTML标签;
S12、将emoli表情符号转换为所述标记语言的表情;
S13、将中文数字和数学运算归一化为通用数学符号表示;
S14、将各种格式的时间归一化为所述标记语言的时间表示,
采用处理答案模块处理答案中的语义表达式的步骤如下:
S21、分析答案个数;
S22、优选答案,获得合适的答案;
S23、获取引用知识的答案;
S24、嵌入引用知识的答案并替换步骤S22中的答案,若不存在引用知识的答案,则直接替换答案中的变量;
S25、将答案中的链接缓存在会话上下文中,若步骤S22中没有找到合适的答案,则根据各答案的条件生成反问句,将答案中的链接缓存在会话上下文中,
其中,从所述步骤S23到步骤S21之间建立递归调用算法,
采用答案转换模块将答案中的链接转换为HTML组件的步骤包括:
步骤S31、分析返回的答案中的链接;
步骤S32、将答案中的链接转换为HTML组件,并添加点击提问的事件,获得最终答案,若答案中不存在链接,则直接获得最终答案。
本发明的中文问答系统知识标记语言的表示方法及中文问答系统,其具有如下优点:
(1)便于计算机对知识的识别和理解;
(2)使用模板简化了知识的维护工作量;
(3)支持知识间的链接和引用;
(4)使用关键词和语序相关语义表达式降低了知识被错误匹配的概率;
(5)使用同义词语义表达式提高了知识的识别率;
(6)使用答案变量支持答案的动态生成;
(7)通过在标准问题上扩展相似问题,支持相同语义的多个问法;
(8)使用随机答案提高了问题系统与用户交互的趣味性和人性化;
(9)使用条件答案、问题链接来引导和支持用户进行多轮对话。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明中问答过程中对知识标记语言的处理示意图;
图2是本发明中问题归一化处理的示例图;
图3是本发明中处理答案中的语义表达式的示例图;
图4是本发明中将答案中的链接转换为HTML组件的示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种中文问答系统知识标记语言的表示方法,该方法包括:知识的基本表示;知识的语义表示;知识模板的表示和实例化;知识的引用与关联;知识中命名实体的表示和消歧;知识中表情、数学、超文本符号和时间的表示。
以上表示方法的详细描述如下:
知识的唯一ID和基本表示:知识主要由ID、参数和知识体构成。知识的ID使用“<实例名_属性名>”表示,此ID全局唯一。紧跟ID后面的“{}”内部为具体的知识体定义,知识体包括问题和答案两个通用知识域,问题域在先,以“<#q>”开头,答案域在后,以“<#a>”开头。知识中的注释以“//”开头到本行行尾,如果是多行注释,每行都要以“//”开头。例如,知识“北京户口的办理条件”的基本表示如下:
<户口_办理条件>//知识ID
{//知识体开始标记
<#q>户口的办理条件是什么?//知识域:问题
<#a>申请人未违反人口和计划生育法律法规和相关政策规定。//知识域:
答案
}//知识体结束标记
知识的语义表示:简单的知识是普通的一问一答语句。对简单的问句,可以将其组织成一排有序的语义表达式词块来增强语义的表达。词块之间以单个空格分隔,简单词块是句子的分词,复杂词块是通过在分词上添加语义表达式标记构成。所述复杂词块包括关键词、同义词和语序相关。关键词使用“[]”表示,一条语句的所有关键词可以唯一确定该语句的语义,例如“请问[打印机]的[保修][条件]是什么”,[打印机][保修][条件]三个关键词确定了这条语句的语义。在“[]”内部,可以对关键词进行同义词扩展,同义词之间使用英文半角“,”隔开,非关键词无需进行同义词扩展。如果关键词语序与语句的语义强相关(语序如果发生变化,会改变语句的语义),则使用“{}”将这些语序相关的关键词包括起来。另外,在答案内部,可以使用答案变量来表示变化的内容,答案变量的表示方法是“${变量名}”,例如“公司的电话是${联系电话},现有员工${员工数}人”。对同一条知识,通常有多个不同的问法,还可能有多个正确的答案。在问题域和答案域中,多个问题或答案之间用“<|>”隔开。如果问题域中有多个问题,则第一个问题为标准问题,后续问题为扩展问题(即标准问题的其它问法)。如果答案域中多个答案,则第一个答案为标准答案,后续答案为扩展答案,每个答案都正确,在无特定条件限制时问答系统随机给出答案。同一个问题,在特定条件限制下,可能有特定的答案,对于这类答案,通过“[]”表示特定条件,通过“:”表示条件及其答案之间的分隔符,当无法确定提问满足的条件时,问答系统应该支持反问或者枚举。例如,对于如下知识:
<北京户口_办理地点>
{
<#q>去哪办理北京户口<|>北京户口在哪办理
<#a>[海淀]:到海淀公安分局办理。<|>[昌平]:到昌平公安分局办理。
}
当用户提问“去哪办理北京户口”时,如果问答系统获知用户的地理位置是“海淀”,则回答“到海淀公安分局办理。”;如果不能获知用户的地理位置或用户的地理位置不在条件中,则给出反问“您想问的是:海淀、昌平”或回答“海淀:到海淀公安分局办理。昌平:到昌平公安分局办理”。
知识模板的表示和实例化:知识模板的表示方法是在知识的表示方法基础上增加了对模板参数的表示。知识模板的ID使用“<实例名_属性名|模板参数1,模板参数2,...>”表示,多个模板参数之间使用英文半角“,”隔开。在实例名、属性名和知识体中,使用“%模板参数名%”表示对模板参数的引用。下面以“办理条件”模板为例,来说明知识模板的表示:
<%X%_办理条件|X,Y>
{
<#q>%X%的办理条件是什么<|>办理%X%的条件是什么
<#a>申请人未违反%Y%和相关政策规定。
}
通过对上面的知识模板参数赋值,令X=户口,Y=人口和计划生育法律法规,得到“户口办理条件”知识,表示方法如下:
<户口_办理条件>
(<%X%_办理条件|X=户口,Y=人口和计划生育法律法规>)
{
<#a>${super.a}还需要满足当地的规定要求。
}
上面的表示方法中,在ID和知识体之间,用“()”括起来的部分表示对模板的继承和对模板参数的实例化。如果新的知识没有将模板中所有的参数都实例化,或者又引入了新的模板参数,则新的知识依然为模板,并在ID中列出需要实例化的模板参数。从模板派生的知识,继承了原模板的问答域和答案域,并能进行改写,在改写时,能通过“${super.q}”和“${super.a}”分别引用原问题和答案。
知识的引用与关联:在答案域中,通过“%{知识ID}”能引用其它的知识的答案。如果用户提问的知识中引用了其它知识,则在生成答案时,结合上下文嵌入所引知识的答案。在答案域中,通过“{标签:知识ID}”能链接其它知识的问题。问答系统在显示答案时,如果答案中包含链接,则将链接的标签展示给用户,用户点击链接,问答系统给所链接知识的答案。例如:知识“<中科汇联_介绍>”引用了知识“<中科汇联_联系方式>”,链接了知识“<爱客服_介绍>”,表示方法如下:
<中科汇联_介绍>
{
<#q>中科汇联的介绍
<#a>中科汇联是一家致力于计算机软件开发、管理咨询与服务的高新技术企业,%{中科汇联_联系方式},它的智能客服机器人产品是{爱客服:爱客服_介绍}。
}
知识中命名实体的表示和消歧:对于存在歧义的命名实体,通过“#命名实体本体类#”的方式进行消歧。“##”中间表示命名实体,包括但不限于:人名,地名,机构名,品牌名,产品型号,上下位词等。如“#苹果公司#”表示此处的苹果是苹果公司而不是苹果水果。可以在本体资源描述文件和实例资源描述文件中对“##”表示的命名实体进行进一步的描述,包括但不限于实体的具体类别(是本体类还是实例)、本体的属性、实例的属性值。
知识中表情、数学、超文本符号和时间的表示:使用“:)表情的拼音首字母缩写)”表示表情,例如闭嘴:)bz)、害羞:)hx)。本标记语言兼容通用数学符号,答案域兼容HTML5规范(例如HTML超链接)。另外,对时间的表示方法如下:
年月日:YYYY年MM月DD日(例如2015年07月11日);
时分秒:HH时MM分SS秒(例如14时00分00秒);
星期:周一,周二,周三,周四,周五,周六,周日;
其它:今日,明日,昨日。
问答系统对真实用户提问进行归一化处理,删除问句中的HTML标签,将中文数字和数学运算归一化为通用数学符号表示,并将各种格式的时间归一化为上述时间表示。
在一个实施例中,本发明还提供一种中文问答系统,所述系统使用上述的知识标记语言的表示方法。请参阅图1至图4,图1是本发明中问答过程中对知识标记语言的处理示意图;图2是本发明中问题归一化处理的示例图;图3是本发明中处理答案中的语义表达式的示例图;图4是本发明中将答案中的链接转换为HTML组件的示例图。所述系统包括问题输入模块、问题提交模块、问题归一化处理模块、搜索模块、处理答案模块、查找链接模块和答案转换模块。
所述问题输入模块,用于输入用户提出的问题;
所述问题提交模块,用于提交用户输入的问题;
所述问题归一化处理模块,用于对提交的问题进行问题归一化处理;
所述搜索模块,用于搜索知识并进行问题匹配,获得与问题相匹配的答案;
所述处理答案模块,用于处理答案中的语义表达式,生成答案,并将结果返回至问答系统界面,若不存在与问题相匹配的答案,则直接将结果返回至问答系统界面;
所述查找链接模块,用于在问答系统界面显示的结果中查找链接,若返回的结果中不存在链接,则将结果显示在问答系统界面;
所述答案转换模块,用于将结果中的链接转换为HTML组件。
请参阅图2,如图2所示,采用问题归一化处理模块对问题归一化处理的步骤如下:
S11、删除问句中的HTML标签;
S12、将emoli表情符号转换为所述标记语言的表情;
S13、将中文数字和数学运算归一化为通用数学符号表示;
S14、将各种格式的时间归一化为所述标记语言的时间表示,
请参阅图3,如图3所示,采用处理答案模块处理答案中的语义表达式的步骤如下:
S21、分析答案个数;
S22、优选答案,获得合适的答案;
S23、获取引用知识的答案;
S24、嵌入引用知识的答案并替换步骤S22中的答案,若不存在引用知识的答案,则直接替换答案中的变量;
S25、将答案中的链接缓存在会话上下文中,若步骤S22中没有找到合适的答案,则根据各答案的条件生成反问句,将答案中的链接缓存在会话上下文中,
其中,从所述步骤S23到步骤S21之间建立递归调用算法。
请参阅图4,如图4所示,采用答案转换模块将答案中的链接转换为HTML组件的步骤包括:
步骤S31、分析返回的答案中的链接;
步骤S32、将答案中的链接转换为HTML组件,并添加点击提问的事件,获得最终答案,若答案中不存在链接,则直接获得最终答案。
本发明的中文问答系统知识标记语言的表示方法及中文问答系统,其具有如下优点:
(1)便于计算机对知识的识别和理解;
(2)使用模板简化了知识的维护工作量;
(3)支持知识间的链接和引用;
(4)使用关键词和语序相关语义表达式降低了知识被错误匹配的概率;
(5)使用同义词语义表达式提高了知识的识别率;
(6)使用答案变量支持答案的动态生成;
(7)通过在标准问题上扩展相似问题,支持相同语义的多个问法;
(8)使用随机答案提高了问题系统与用户交互的趣味性和人性化;
(9)使用条件答案、问题链接来引导和支持用户进行多轮对话。
以上所揭露的仅为本发明的几种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种中文问答系统知识标记语言的表示方法,其特征在于:所述中文问答系统知识标记语言的表示方法包括:知识的基本表示方法,知识的语义表示方法,知识模板的表示和实例化方法,知识的引用与关联方法,知识中命名实体的表示和消歧方法,知识中表情、数学、超文本符号和时间的表示方法。
2.根据权利要求1所述的中文问答系统知识标记语言的表示方法,其特征在于:所述知识的基本表示方法包括:知识主要由ID、参数和知识体构成,知识的ID使用“<实例名_属性名>”表示,ID后面的“{}”内部为知识体定义,所述知识体包括问题域和答案域,问题域在先,以“<#q>”开头,答案域在后,以“<#a>”开头,所述知识中的注释以“//”开头到本行行尾,如果是多行注释,每行都要以“//”开头。
3.根据权利要求1所述的中文问答系统知识标记语言的表示方法,其特征在于:所述知识的语义表示方法包括:是将知识组织成一排有序的语义表达式词块,词块之间以单个空格分隔;简单词块是句子的分词,复杂词块是通过在分词上添加语义表达式标记构成,所述复杂词块包括关键词、同义词和语序相关;
关键词使用“[]”表示;
如果关键词语序与语句的语义强相关,则使用“{}”将这些语序相关的关键词包括起来;
在答案内部,使用答案变量来表示变化的内容,答案变量的表示方法是“${变量名}”;
在问题域和答案域中,多个问题或答案之间用“<|>”隔开;
如果问题域中有多个问题,则第一个问题为标准问题,后续问题为扩展问题,所述扩展问题即标准问题的其它问法;
如果答案域中多个答案,则第一个答案为标准答案,后续答案为扩展答案,每个答案都正确,在无特定条件限制时问答系统随机给出答案;
同一个问题,在特定条件限制下,有特定的答案,对于这类答案,通过“[]”表示特定条件,通过“:”表示条件及其答案之间的分隔符;当无法确定提问满足的条件时,问答系统支持反问或者枚举。
4.根据权利要求1所述的中文问答系统知识标记语言的表示方法,其特征在于:所述知识模板的表示和实例化方法包括:
知识模板的表示方法是在知识的表示方法的基础上增加了对模板参数的表示,知识模板的ID使用“<实例名_属性名|模板参数1,模板参数2,...>”表示,多个模板参数之间使用英文半角“,”隔开,在实例名、属性名和知识体中,使用“%模板参数名%”表示对模板参数的引用;
实例化方法包括:在ID和知识体之间,用“()”括起来的部分表示对模板的继承和对模板参数的实例化,如果新的知识没有将模板中所有的参数都实例化,或者又引入了新的模板参数,则新的知识依然为模板,并在ID中列出需要实例化的模板参数,从模板派生的知识,继承了原模板的问答域和答案域,并能进行改写,在改写时,能通过“${super.q}”和“${super.a}”分别引用原问题和答案。
5.根据权利要求1所述的中文问答系统知识标记语言的表示方法,其特征在于:知识的引用与关联方法包括:
在答案域中,通过“%{知识ID}”能引用其它的知识的答案,如果用户提问的知识中引用了其它知识,则在生成答案时,结合上下文嵌入所引知识的答案;
在答案域中,通过“{标签:知识ID}”能链接其它知识的问题;
问答系统在显示答案时,如果答案中包含链接,则将链接的标签展示给用户,用户点击链接,问答系统给所链接知识的答案。
6.根据权利要求1所述的中文问答系统知识标记语言的表示方法,其特征在于:知识中命名实体的表示和消歧方法包括:
对于存在歧义的命名实体,通过“#命名实体本体类#”的方式进行消歧,“##”中间表示命名实体,所述命名实体包括人名,地名,机构名,品牌名,产品型号,上下位词;
在本体资源描述文件和实例资源描述文件中对“##”表示的命名实体进行进一步的描述,所述命名实体包括实体的具体类别、本体的属性、实例的属性值。
7.根据权利要求1所述的中文问答系统知识标记语言的表示方法,其特征在于:
知识中表情、数学、超文本符号和时间的表示方法包括:
使用“:)表情的拼音首字母缩写)”表示表情;
对时间的表示方法如下:
年月日:YYYY年MM月DD日;
时分秒:HH时MM分SS秒;
星期:周一,周二,周三,周四,周五,周六,周日;
其它:今日,明日,昨日。
8.一种中文问答系统,其特征在于:所述系统使用权利要求1-7任一所述的表示方法。
9.根据权利要求8所述的中文问答系统,其特征在于:
所述系统包括:
问题输入模块,用于输入用户提出的问题;
问题提交模块,用于提交用户输入的问题;
问题归一化处理模块,用于对提交的问题进行问题归一化处理;
搜索模块,用于搜索知识并进行问题匹配,获得与问题相匹配的答案;
处理答案模块,用于处理答案中的语义表达式,生成答案,并将结果返回至问答系统界面,若不存在与问题相匹配的答案,则直接将结果返回至问答系统界面;
查找链接模块,用于在问答系统界面显示的结果中查找链接,若返回的结果中不存在链接,则将结果显示在问答系统界面;
答案转换模块,用于将结果中的链接转换为HTML组件。
10.根据权利要求9所述的中文问答系统,其特征在于:
采用问题归一化处理模块对问题归一化处理的步骤如下:
S11、删除问句中的HTML标签;
S12、将emoli表情符号转换为所述标记语言的表情;
S13、将中文数字和数学运算归一化为通用数学符号表示;
S14、将各种格式的时间归一化为所述标记语言的时间表示,
采用处理答案模块处理答案中的语义表达式的步骤如下:
S21、分析答案个数;
S22、优选答案,获得合适的答案;
S23、获取引用知识的答案;
S24、嵌入引用知识的答案并替换步骤S22中的答案,若不存在引用知识的答案,则直接替换答案中的变量;
S25、将答案中的链接缓存在会话上下文中,若步骤S22中没有找到合适的答案,则根据各答案的条件生成反问句,将答案中的链接缓存在会话上下文中,
其中,从所述步骤S23到步骤S21之间建立递归调用算法,
采用答案转换模块将答案中的链接转换为HTML组件的步骤包括:
步骤S31、分析返回的答案中的链接;
步骤S32、将答案中的链接转换为HTML组件,并添加点击提问的事件,获得最终答案,若答案中不存在链接,则直接获得最终答案。
CN201510958742.XA 2015-12-18 2015-12-18 中文问答系统 Active CN105630887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958742.XA CN105630887B (zh) 2015-12-18 2015-12-18 中文问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958742.XA CN105630887B (zh) 2015-12-18 2015-12-18 中文问答系统

Publications (2)

Publication Number Publication Date
CN105630887A true CN105630887A (zh) 2016-06-01
CN105630887B CN105630887B (zh) 2017-06-16

Family

ID=56045820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958742.XA Active CN105630887B (zh) 2015-12-18 2015-12-18 中文问答系统

Country Status (1)

Country Link
CN (1) CN105630887B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649739A (zh) * 2016-12-23 2017-05-10 深圳市空谷幽兰人工智能科技有限公司 多轮交互信息继承识别方法、装置以及交互系统
CN107688667A (zh) * 2017-09-30 2018-02-13 平安科技(深圳)有限公司 智能机器人客服方法、电子装置及计算机可读存储介质
CN108021703A (zh) * 2017-12-26 2018-05-11 广西师范大学 一种谈话式智能教学系统
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108804488A (zh) * 2017-04-26 2018-11-13 谷歌有限责任公司 在特定子节点状态处实例化对话进程
CN109241267A (zh) * 2018-09-27 2019-01-18 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质
CN109582833A (zh) * 2018-11-06 2019-04-05 阿里巴巴集团控股有限公司 异常文本检测方法及装置
CN109933314A (zh) * 2017-12-15 2019-06-25 上海智臻智能网络科技股份有限公司 多轮问答系统的生成装置
CN110019701A (zh) * 2017-09-18 2019-07-16 京东方科技集团股份有限公司 用于问答服务的方法、问答服务系统以及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222076B (zh) * 2020-04-16 2020-08-07 江西软云科技股份有限公司 题目推送方法、系统、可读存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6745161B1 (en) * 1999-09-17 2004-06-01 Discern Communications, Inc. System and method for incorporating concept-based retrieval within boolean search engines
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6745161B1 (en) * 1999-09-17 2004-06-01 Discern Communications, Inc. System and method for incorporating concept-based retrieval within boolean search engines
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649739B (zh) * 2016-12-23 2020-09-11 广东惠禾科技发展有限公司 多轮交互信息继承识别方法、装置以及交互系统
CN106649739A (zh) * 2016-12-23 2017-05-10 深圳市空谷幽兰人工智能科技有限公司 多轮交互信息继承识别方法、装置以及交互系统
US11381530B2 (en) 2017-04-26 2022-07-05 Google Llc Instantiation of dialog process at a particular child node state
CN108804488A (zh) * 2017-04-26 2018-11-13 谷歌有限责任公司 在特定子节点状态处实例化对话进程
CN110019701A (zh) * 2017-09-18 2019-07-16 京东方科技集团股份有限公司 用于问答服务的方法、问答服务系统以及存储介质
CN107688667A (zh) * 2017-09-30 2018-02-13 平安科技(深圳)有限公司 智能机器人客服方法、电子装置及计算机可读存储介质
CN109933314B (zh) * 2017-12-15 2022-10-28 上海智臻智能网络科技股份有限公司 多轮问答系统的生成装置
CN109933314A (zh) * 2017-12-15 2019-06-25 上海智臻智能网络科技股份有限公司 多轮问答系统的生成装置
CN108021703A (zh) * 2017-12-26 2018-05-11 广西师范大学 一种谈话式智能教学系统
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109241267B (zh) * 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质
CN109241267A (zh) * 2018-09-27 2019-01-18 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质
US11521118B2 (en) 2018-09-27 2022-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating training data for VQA system, and medium
CN109582833A (zh) * 2018-11-06 2019-04-05 阿里巴巴集团控股有限公司 异常文本检测方法及装置
CN109582833B (zh) * 2018-11-06 2023-09-22 创新先进技术有限公司 异常文本检测方法及装置

Also Published As

Publication number Publication date
CN105630887B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN105630887B (zh) 中文问答系统
CN112307215B (zh) 数据处理方法、装置及计算机可读存储介质
Kettinger et al. The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge
US7761478B2 (en) Semantic business model management
US6505183B1 (en) Human resource knowledge modeling and delivery system
Joosten Trigger modelling for workflow analysis
Winiwarter Adaptive natural language interfaces to FAQ knowledge bases
EP2570974A1 (en) Automatic crowd sourcing for machine learning in information extraction
CN101004737A (zh) 基于关键词的个性化文档处理系统
CN106528759A (zh) 智能问答系统的信息处理方法及装置
CN112307772A (zh) 一种基于语义本体的广彩瓷知识库的构建方法
CN111400465A (zh) 客服机器人的生成方法、装置、电子设备及介质
Dhoolia et al. A cognitive system for business and technical support: A case study
Kallas et al. Lexicographic practices in Europe: Results of the ELEXIS Survey on user needs
von Brackel-Schmidt et al. A User-centric taxonomy for conversational generative language models
Haqimi et al. Timeline reminder system bot and telegram assistant chatbot for a university student and lecturer
Zhu et al. Confucianism, marxism, and pragmatism: The intellectual contexts of engineering education in China
CN117520520A (zh) 一种基于知识图谱的知识查询方法和装置
CN105069720A (zh) 专利知识系统
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
JP7143460B2 (ja) 質問回答集生成システム、質問回答集生成方法及び質問回答集生成プログラム
Verma et al. University Chatbot System using NLP
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
CN113486146A (zh) 一种文本处理方法、装置、电子设备及计算机可读介质
Youdeowei The B_Rule Methodology: A Business Rule Approach to Information Systems Development

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Du Xinkai

Inventor after: Zhou Ruixiang

Inventor after: Wang Bingdong

Inventor after: You Shixue

Inventor before: You Shixue

Inventor before: Du Xinkai

Inventor before: Wang Bingdong