CN110209781A - 一种文本处理方法、装置以及相关设备 - Google Patents
一种文本处理方法、装置以及相关设备 Download PDFInfo
- Publication number
- CN110209781A CN110209781A CN201810917643.0A CN201810917643A CN110209781A CN 110209781 A CN110209781 A CN 110209781A CN 201810917643 A CN201810917643 A CN 201810917643A CN 110209781 A CN110209781 A CN 110209781A
- Authority
- CN
- China
- Prior art keywords
- predicate
- text
- template
- sample
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取第一文本,将第一文本转换为第一问题模板;获取与第一文本相关联的第一答复文本,获取样本谓词以及与样本谓词具有映射关系的内容字符串,将属于第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;为第一问题模板和第一谓词设置映射关系;映射关系是用于当后续获取到的第二文本所转换得到的问题模板为第一问题模板时查找与第二文本对应的第一谓词;与第二文本对应的第一谓词是用于查找与第二文本对应的查询结果。采用本发明,可以提高制定问题模板与谓词的映射规则的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置以及相关设备。
背景技术
自动问答系统,又称为人机对话系统,用户以自然语言形式描述问题,自动问答系统从大量的数据中查找除准确、简洁、人性化的回答并反馈给用户。自动问答系统是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。例如,用户询问:上海交大在哪。问答系统回答:上海市闵行去东川路800号,相比传统搜索引擎是根据关键词返回大量的文档集合,自动问答系统不需要用户亲自查找相关资料,就可以快速获取到问题的答案。
在现有自动问答系统中,首先是将用户输入的关于问题的语音转换为问题模板,采用规则映射的方法映射出问题模板对应的谓词。然后根据映射得到的谓词,在知识库中查找问题的答案。例如,将“你今年多大”“你今天多少岁”“你多大岁数”“你的年龄是多少”均映射为谓词:年龄。但是,映射规则是由人工制定的,受限与人工的知识和能力,制定的规则不可能完备。若用户换一个问法:你芳龄多少,且该问法不在规则内,自动问答系统就不能处理这个问题。
上述可以,经由自然语言转换而来的问题模板千差万别,若由人工分别制定每个问题模板的映射规则会耗费大量时间,效率低下。
发明内容
本发明实施例提供一种文本处理方法、装置以及相关设备,可以提高制定问题模板与谓词的映射规则的效率。
本发明一方面提供了一种文本处理方法,包括:
获取第一文本,将所述第一文本转换为第一问题模板;
获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;
为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
其中,还包括:
若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;
若所述第一问题模板不包括所述目标短语集合中的目标短语,则执行所述获取与所述第一文本相关联的第一答复文本的步骤。
其中,所述目标短语包括硬谓词和软谓词;
所述若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词,包括:
若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;
若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。
其中,还包括:
若获取到所述第二文本,则提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板;
查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;
将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。
其中,所述根据所述目标实体将所述第二文本转换为第二问题模板,包括:
获取与所述目标实体对应的目标领域属性;
将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。
其中,所述获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词,包括:
获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;
基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;
将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;
统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。
其中,所述获取多个谓词内容字典树,包括:
获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;
根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字符串中的一个字符;
根据宽度优先搜索,为所述各谓词内容字典树中的各节点设置失配指针。
其中,所述将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词,包括:
将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词;
若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值,则将大于所述数量阈值的相同的第一参考谓词确定为第二参考谓词,并将所述第二参考谓词合并为一个第二参考谓词;
将合并后的第二参考谓词、未被确定为所述第二参考谓词的第一参考谓词确定为所述辅助谓词。
其中,所述获取与所述第一文本相关联的第一答复文本,包括:
提取所述第一文本中的关键词;
根据索引库中多个页面的页面名称和所述关键词的匹配程度,以及各页面的链接频次,计算所述各页面的相关度排名;
将所述相关度排名小于排名阈值的页面作为目标页面,爬取所述目标页面中的内容,将爬取的内容封装为所述第一答复文本。
其中,还包括:
获取问答对;所述问答对包括问题文本和回答文本;
将所述问题文本确定为所述第一文本,并将所述回答文本确定为所述内容字符串。
本发明另一方面提供了一种文本处理装置,包括:
第一转换模块,用于获取第一文本,将所述第一文本转换为第一问题模板;
第一获取模块,用于获取与所述第一文本相关联的第一答复文本;
第二获取模块,用于获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;
设置模块,用于为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
其中,还包括:
第一确定模块,用于若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;
通知模块,用于若所述第一问题模板不包括所述目标短语集合中的目标短语,则通知所述第一获取模块执行所述获取与所述第一文本相关联的第一答复文本。
其中,所述目标短语包括硬谓词和软谓词;
所述第一确定模块,包括:
第一确定单元,用于若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;
第二确定单元,用于若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。
其中,还包括:
提取模块,用于若获取到所述第二文本,则提取所述第二文本中的目标实体;
第二转换模块,用于根据所述目标实体将所述第二文本转换为第二问题模板;
所述提取模块,还用于查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;
输出模块,用于将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。
其中,所述第二转换模块,包括:
第一获取单元,用于获取与所述目标实体对应的目标领域属性;
替换单元,用于将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。
其中,所述第二获取模块,包括:
第二获取单元,用于获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;
查找单元,用于基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;
第三确定单元,用于将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;
统计单元,用于统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。
其中,所述第二获取单元,包括:
获取子单元,用于获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;
构建子单元,用于根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字符串中的一个字符;
所述构建子单元,还用于根据宽度优先搜索,为所述各谓词内容字典树中的各节点设置失配指针。
其中,所述第三确定单元,包括:
确定子单元,用于将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词;
合并子单元,用于若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值,则将大于所述数量阈值的相同的第一参考谓词确定为第二参考谓词,并将所述第二参考谓词合并为一个第二参考谓词;
所述确定子单元,还用于将合并后的第二参考谓词、未被确定为所述第二参考谓词的第一参考谓词确定为所述辅助谓词。
其中,所述第一获取模块,包括:
计算单元,用于提取所述第一文本中的关键词;
所述计算单元,还用于根据索引库中多个页面的页面名称和所述关键词的匹配程度,以及各页面的链接频次,计算所述各页面的相关度排名;
爬取单元,用于将所述相关度排名小于排名阈值的页面作为目标页面,爬取所述目标页面中的内容,将爬取的内容封装为所述第一答复文本。
其中,还包括:
第三获取模块,用于获取问答对;所述问答对包括问题文本和回答文本;
所述第三获取模块,还用于将所述问题文本确定为所述第一文本,并将所述回答文本确定为所述内容字符串。
本发明另一方面提供了一种电子设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过获取第一文本,将第一文本转换为第一问题模板;获取与第一文本相关联的第一答复文本,获取样本谓词以及与样本谓词具有映射关系的内容字符串,将属于第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;为第一问题模板和第一谓词设置映射关系;映射关系是用于当后续获取到的第二文本所转换得到的问题模板为第一问题模板时,查找与第二文本对应的第一谓词;与第二文本对应的第一谓词是用于查找与第二文本对应的查询结果。上述可知,从所有关于谓词的内容字符串中查找属于问题模板的答复文本的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词,从而可以自动确定问题模板对应的谓词,并自动为问题模板和对应的谓词建立映射关系,避免以人工的方式为问题模板添加映射规则,提高确定问题模板所对应谓词的效率;同时,将数量最多的谓词作为与问题模板具有对应关系的谓词,可以提高映射规则的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的一种文本处理方法的系统架构图;
图1b-图1c是本发明实施例提供的一种文本处理方法的场景示意图;
图2a是本发明实施例提供的一种文本处理方法的流程示意图;
图2b是本发明实施例提供的一种多模式串匹配的示意图;
图2c是本发明实施例提供的一种知识库的示意图;
图3是本发明实施例提供的另一种文本处理方法的流程示意图;
图4是本发明实施例提供的另一种文本处理方法的流程示意图;
图5是本发明实施例提供的一种文本处理装置的结构示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1a,是本发明实施例提供的一种文本处理方法的系统架构图,服务器10a为用户终端集群提供服务,用户终端集群可以包括:用户终端10b、用户终端10c...用户终端10d。当用户(可以是用户10e、10f或者10g)需要提问时,可以向用户终端(可以是用户终端10b、用户终端10c或用户终端10d)发送语音或者输入文本,用户终端获取到语音后或者文本后,发送至服务器10a,由服务器10a首先将文本转换为问题模板(若用户终端发送的是语音还需首先将语音转换为文本),在多个映射规则中,查找与问题模板具有映射关系的谓词,根据查询到的谓词在知识库中查找提问的答案。服务器10a将查找到的答案发送至用户终端,用户终端向用户显示答案。当然,如果用户终端自身存储有映射规则,且自身具有查找问题模板对应谓词以及查找问题答案的功能,那么可以在用户终端中直接进行查找,而不必发送至服务器。其中,问题模板以及对应的谓词之间的映射关系是提前设置好的,可以是服务器10a提前设置好问题模板和谓词之间的映射关系,也可以是各用户终端设置好问题模板和谓词之间的映射关系。下述图1b以一个问题模板为例,说明如何建立问题模板与谓词之间的映射关系;下述图1c以一个用户10e和一个用户终端10b为例,说明如何根据设置好的映射规则,查找问题答案。
其中,用户终端可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、智能音箱、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)、智能机器人、智能家居等。
请参见图1b,是本发明实施例提供的一种文本处理方法的场景示意图,获取海量问答对20a,一个问答对包括一个问题和对应的答案。下面以一个问题对20b为例,说明如何为问答对20b中的问题所对应的问题模板设置对应的谓词,对海量问答对20a中的其他问答对中的问题来说,都可以采用相同的方式设置对应的谓词,以扩充映射规则的数量。首先提取出问答对20b中的问题,作为问题文本20c:B的出生地在哪里。识别问题文本20c中的实体,获取与实体“B”对应的领域属性:person(person是人物的英文单词),并将问题文本20c中的实体“B”替换为对应的领域属性“person”,得到问题文本20c的问题模板20d:[person]的出生地在哪里,其中每个实体以及对应的领域属性可以提前关联存储在数据库中,可以在该数据库中直接查找实体对应的领域属性,且识别问题文本20c中的实体字符串的方式可以是基于AC自动机执行多模式串匹配,查找出问题文本20c中与AC自动机中的字典树匹配成功的字符串,该字符串即是实体字符串,上述字典树是根据大量的实体字符串构建而成的。确定问题模板20d后,检测问题模板20d中是否包含短语集合20e中的任意短语,其中,短语集合20e中的短语是:身高、年龄、体重、生辰、出生日期、出生年月...,可以知道,上述短语要么是谓词,要么是谓词别称。短语集合20e中的短语都存在与之对应的谓词,短语“身高”对应谓词“身高”、短语“年龄”对应谓词“年龄”、短语“体重”对应谓词“体重”、短语“出生日期”对应谓词“出生日期”、短语“出生年月”对应谓词“出生日期”等等。
若问题模板20d中包含短语集合20e中的任意短语,那么将该短语对应的谓词作为问题模板20d的谓词,并为问题模板20d和上述谓词设置映射关系,后续可以将问题模板20d以及对应的谓词关联存储至数据库20y中。若问题模板20d中没有包括短语集合20e中的任何短语,那么在互联网中爬取关于问题文本20c的所有关联数据20f,将爬取的数据20f封装为7个答复文本,7个答复文本分别为:1、上海;2、上海市、3、好像是北京的;4、上海浦东区的;5、B出生于上海浦东区,中国著名导演、演员;6、他是我最喜欢的导演;7、他是中国人。其中,爬取数据是模拟浏览器,向网络服务器发送请求以便将网络资源从网络流中读取出来,保存到本地,并对这些数据执行提取操作和分离操作。
对每个答复文本来说,将每个答复文本分别输入字典树20g...字典树20h中,在每个字典树中执行多模式串匹配处理,其中每个字典树是由一个谓词的所有可能的内容字符串构建而成的,此处的内容字符串可以来自于海量问答对20a中每个问答对的答案。例如,与谓词“性别”对应的所有内容字符串可以是:男的、女的、男性、女性、男、女、雄性、雌性、公的、母的等等,那么与谓词“性别”对应的字典树就可以由上述内容字符串构建而成,字典树是一种前缀树,对于具有相同前缀的内容字符串可以共用节点,采用字典树这种数据结构可以节约存储空间。从内容字典树中输出与答复文本匹配成功的内容字符串,将匹配成功的内容字符串所在的字典树对应的谓词,称为辅助谓词,例如,对于答复文本1“上海”来说,辅助谓词就是出生地;对答复文本2“上海市”来说,辅助谓词也是出生地;对答复文本3“好像是北京的”来说,辅助谓词也是出生地;对答复文本4“上海浦东区的”来说,辅助谓词也是出生地;对答复文本5“B出生于上海浦东区,中国著名导演、演员”来说,辅助谓词分别是出生地、国籍、职业;对答复文本6“他是我最喜欢的导演”来说,辅助谓词是职业;对答复文本7“他是中国人”来说,辅助谓词是国籍。对每个辅助谓词投票,即是统计相同辅助谓词的数量,其中辅助谓词“出生地”的数量为5;辅助谓词“国籍”的数量为2;辅助谓词“职业”的数量为2,将数量最多的辅助谓词作为问题模板20d对应的谓词,即辅助谓词“出生地”是问题模板20d“[person]的出生地在哪里”的谓词,并将问题模板20d“[person]的出生地在哪里”以及谓词“出生地”关联存储至数据库20y中。对海量问答对20a中的其他问答对来说,都可以采用上述相同的方式设置每个问题模板和谓词之间的映射关系,以扩充数据库20y中的映射关系的数量。
扩充数据库20y中的映射关系的数量是在线下完成,在线上来说,可以直接根据数据库20y中的映射关系,确定待查询文本对应的谓词。请参见图1c,用户终端10b(以智能音响10b为例)中包括一个问答系统,该问答系统可以回答用户以自然语言方式的提问。用户10e向智能音响10b发送语音:A的家乡是哪里的,智能音响10b将获取到的语音信号转换的文本30a。识别文本30a中的实体字符串,同样将识别出来的实体字符串“A”替换为该实体对应的领域属性:person,可以得到文本30a的问题模板30b:[person]的家乡是哪里的。在数据库20y中查找与问题模板30b具有相同问题模板对应的谓词,查找出的对应的谓词为:出生地,因此与问题模板30b具有映射关系的谓词是谓词30c:出生地。将文本30a中的实体字符串“A”,以及谓词30c“出生地”组合为查询文本30d:A,出生地,在知识库30e中查找查询文本30d的答案,得到:北京市,即北京市为A的出生地,将查找到的答案“北京市”语音播报或者在屏幕中显示,以使用户10e可以直接获知关于提问“A的家乡是哪里的”的答案。
从问题模板的答复文本中查找所有关于谓词的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词。可以自动为问题模板和对应的谓词建立映射关系,提高确定问题模板所对应的谓词时的效率;同时,在线上可以直接基于映射关系确定待查询文本的谓词,可以快速在知识库中查找问题的答案。
其中,查找内容字符串、确定问题模板对应的谓词的具体过程可以参见以下图2a至图4所对应的实施例。
进一步地,请参见图2a,是本发明实施例提供的一种文本处理方法的流程示意图。如图2a所示,所述文本处理方法可以包括:
步骤S101,获取第一文本,将所述第一文本转换为第一问题模板。
具体的,获取第一文本(如上述图1b所对应实施例中的文本20c),其中第一文本可以来自预先获取的问答对(如上述图1b所对应实施例中的文本20b)中的问题文本,问答对包括问题文本和回答文本,其中第一文本中的问题是二元事实型问题,即询问实体某一方面的属性,换句话说一个第一文本只包含一个属性问题,例如,文本“A的身高和年龄”就不是一个第一文本,因为该文本中包含了2个属性问题(身高、年龄)。识别第一文本中的实体,并获取该实体对应的领域属性,将获取到的领域属性替换第一文本中的实体,可以得到与第一文本对应的问题模板,与第一文本对应的问题模板称为第一问题模板(如上述图1b所对应实施例中的文本20d),多个实体以及每个实体对应的领域属性可以提前关联存储在数据库中,后续可以直接在数据库中查找实体对应的领域属性。其中,识别第一文本中的实体的方式可以是基于AC自动机执行多模式串匹配,查找出第一文本中与AC自动机中的字典树匹配成功的字符串,该匹配成功的字符串即是第一文本中的实体对应的字符串,上述字典树是根据大量的实体所对应的字符串构建而成的。问题模板是具有扩展样例的一种通用的问题句式,领域属性是对应实体所在业务领域的统称,例如,问题1:小A的故乡是哪里;问题2:小B的故乡是哪里;问题3:小C的故乡是哪里;上述3个问题的实体不同,但对应一个相同的问题模板:[person]的的故乡是哪里。上述问题模板中的“[person]”即是实体“小A”、实体“小B”、实体“小C”对应的领域属性。
步骤S102,获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词。
具体的,由于第一文本的内容涉及提问,获取与第一文本中的问题相关联的答复文本,称为第一答复文本。获取第一答复文本的具体过程可以是:检测第一文本所包含的字符数量,若第一文本所包含的字符数量大于预设的字符数量阈值,则将第一文本切分为多个词组,对每个词组进行二分类问题判断,即判断该词组是关键词或者不是关键词,可以根据已经标注好的语料,训练一个二分类器。将切分好的词组分别输入二分类器中,识别该词组是否为关键词。若第一文本所包含的字符数量小于或者等于预设的字符数量阈值,则直接将第一文本作为关键词。确定了关键词后,在存储了多个页面的索引库中,计算各页面的页面名称和关键词之间的匹配度,并统计各页面的链接频次。其中链接频次是对应页面作为向用户展示的结果页面的次数。根据各页面的页面名称和关键词之间的匹配度,以及统计出来的各页面的链接频次,计算各页面与第一文本的相关度排名,若页面的相关度排名越靠前,那么该页面中的内容与第一文本就越相关。将相关度排名小于排名阈值的页面确定为目标页面,爬取目标页面中的数据(如上述图1b所对应实施例中的数据20f),将爬取的数据封装为文本,称为第一答复文本,第一答复文本的数量可以是一个或者多个,爬取数据的数量和第一答复文本的数量成正比,例如,若目标页面是论坛页面,则可以将论坛中的每个用户的发言分别封装为第一答复文本。
获取了第一答复文本后,获取样本谓词以及与样本谓词具有映射关系的内容字符串,其中,内容字符串是对应样本谓词的具体内容,例如,样本谓词“出生地”的内容字符串可以是:北京、上海、天津、大连、山东等;样本谓词“职业”的内容字符串可以是:老师、医生、律师、演员等,内容字符串可以来自预先获取的问答对中的回答文本,即问答对中的问题文本可以作为第一文本,问答对中的回答文本可以作为内容字符串。在所有内容字符串中,查找属于第一答复文本的内容字符串,并将查找出来的内容字符串对应的样本谓词,确定为辅助谓词。若有多个第一答复文本,在所有内容字符串中,分别查找属于第一答复文本的内容字符串,同样地,将查找出来的内容字符串对应的样本谓词,作为辅助谓词。由于第一答复文本中内容的多样性,所以在同一个答复文本可能查找出多个内容字符串,也即是同一个答复文本可能对应多个辅助谓词,且上述多个辅助谓词可能相同也可能不同。对辅助谓词进行投票,即是统计相同辅助谓词的数量,将数量最多的辅助谓词,确定为第一谓词(如上述图1b所对应实施例中的谓词“出生地”)。
举例来说,内容字符串包括:北京(对应的样本谓词为:地点)、上海(对应的样本谓词为:地点)、老师(对应的样本谓词为:职业)、中国(对应的样本谓词为:国籍)、美国(对应的样本谓词为:国籍),第一答复文本为:我爱北京和上海,在上述5个内容字符串中查找属于第一答复文本的内容字符串,即内容字符串“北京”所对应的样本谓词“地点”为辅助谓词、且内容字符串“上海”所对应的样本谓词“地点”也是辅助谓词,且数量最多的辅助谓词“地点”是第一谓词,此处辅助谓词的数量是2。在所有内容字符串(多个模式串)中,查找属于第一答复文本的内容字符串(模式串)属于字符匹配领域的多模式串匹配。多模式串匹配算法可以包括:AC自动机、散列函数匹配等。
下面以AC自动机为例(AC自动机的算法复杂度为线性O(n),是应用最为广泛的多模式串匹配算法之一),说明如何在多个内容字符串中查找属于第一答复文本的内容字符串。首先,基于多个样本谓词以及各样本谓词对应的所有内容字符串,分别构造字典树,称为谓词内容字典树(如上述图1b所对应实施例中的字典树20g...20h)。一个样本谓词对应的所有内容字符串可以构造一棵谓词内容字典树,构造的谓词内容字典树的数量和样本谓词的数量相等。谓词内容字典树中的一个节点包括一个内容字符串的一个字符,且谓词内容字典树中的节点可以共用内容字符串的前缀,但不共用后缀。例如,内容字符串“南京”对应谓词内容字典树中的2个节点,对内容字符串“南昌”来说,就可以复用“南”这一个节点,只需要再创建一个节点用于表示内容字符串中的“昌”。构建完谓词内容字典树后,为谓词内容字典树中的每个节点设置失配指针。失配指针是用于当谓词内容字典树中的节点与第一答复文本匹配失败时,就跳转到失配指针所指示的节点,继续匹配。设置失配指针的原则是:对于直接与根节点相连的节点来说,上述节点的失配指针直接指向根节点;对于与根节点不相连的节点来说,根据宽度优先搜索的原则,在所有未设置失配指针的节点中,选取用于当前设置失配指针的节点作为目标节点。将目标节点的父节点的失配指针所指向的节点作为辅助节点,若辅助节点的所有子节点所包含的字符中包括目标节点包含的字符,则将目标节点的失配指针指向与目标节点包含相同字符的辅助节点的子节点。若辅助节点的所有子节点所包含的字符中不包括目标节点包含的字符,就将上述辅助节点的失配指针所指向的节点作为辅助节点,再次进行判断,如果找不到辅助节点,那么就将目标节点的失配指针指向根节点。采用上述方法,可以为谓词内容字典树的所有节点分别设置失配指针。
其中,宽度优先搜索是图的搜索算法之一,通过已找到和未找到顶点之间的边界向外扩展,就是说宽度优先搜索首先搜索和s距离为k的所有顶点,然后再去搜索和s距离为k+l的其他顶点,在本方案中,根据宽度优先搜索的原则就是先分别将与根节点距离为1的节点作为目标节点,进而为各目标节点分别设置失配指针;再将与根节点距离为2的节点作为目标节点,直到所有的节点都设置了失配指针。
接下来根据谓词内容字典树和第一答复文本,执行多模式串匹配。下面以一个第一答复文本以及一个谓词内容字典树为例,进行说明如何进行多模式串匹配,匹配过程具体为:将第一答复文本中的第一个字符作为目标字符,若目标字符与当前字符匹配,表示从当前节点沿着谓词内容字典树有一条路径可以到达目标字符,此时只需沿该路径走向下一个节点继续匹配即可,并将在第一答复文本中与目标字符相邻的字符作为目标字符;若目标字符与当前字符不匹配,则去当前节点的失配指针所指向的节点继续匹配,匹配过程随着指针指向根节点结束,直到第一答复文本的所有字符都被确定为目标字符时,匹配结束。
请一并参见图2b,是本发明实施例提供的一种多模式串匹配的示意图。图2b是由样本谓词“出生地”对应的内容字符串“南昌市”“南京市”“京都”“昌平区”构建而成的谓词内容字典树(谓词内容字典树中各节点之间的连接关系用实线表示),其中内容字符串“南昌市”和内容字符串“南京市”共用前缀,即共用节点1“南”。采用宽度优先搜索原则,依次为节点1“南”、节点2“京”、节点3“昌”设置失配指针。由于上述3个节点与根节点“root”之间相连,因此上述3个节点的失配指针均指向根节点“root”。按照宽度优先搜索原则,继续为节点4“昌”、节点5“京”、节点6“都”、节点7“平”设置失配指针,对节点4“昌”来说,将该节点作为目标节点。由于目标节点的父亲节点(即节点1“南”)的失配指针指向根节点“root”,而根节点“root”的子节点中包括节点“昌”(节点3“昌”),因此,将目标节点的失配指针指向根节点“root”的子节点3“昌”,即节点4“昌”的失配指针指向节点3“昌”。按照上述方式,可以为剩余的所有节点设置失配指针,如图2b中的虚线表示对应节点的失配指针所指向的节点。
设置好所有节点的失配指针后,根据图2b的谓词内容字典树为第一答复文本“南京市南京都门前”执行多模式串匹配。首先从第一答复文本中第一个字符开始和上述谓词内容字典树匹配,第一答复文本中的“南京市”可以匹配成功,且节点“市”是一个叶子节点,可以将第一答复文本中的“南京市”输出,从根节点“root”重新开始匹配第一答复文本中的剩余字符。重新从第一答复文本中的第四个字符“南”开始匹配,第四个字符“南”、第五个字符“京”可以和分别和节点1、节点5均匹配成功,但字典树中没有一个节点可以和第六个字符“都”匹配,因此在字典树中转向节点5“京”的失配指针所指示的节点(即节点2“京”)继续匹配,第五个字符“京”、第六个字符“都”分别和节点2、节点6匹配成功,且节点6“都”是一个叶子节点,可以将第一答复文本中的“京都”输出。从根节点“root”重新开始匹配第一答复文本中的剩余字符,剩余字符“门”和“前”均匹配失败,因此上述第一答复文本和图2b中的谓词内容字典树匹配成功的即是内容字符串:南京市、京都。
匹配完成后,输出的是匹配成功的内容字符串,将输出的匹配成功的内容字符串称为辅助字符串。若有多个第一答复文本以及多个谓词内容字典树,将多个第一答复文本分别和每个谓词内容字典树执行多模式串匹配,用于识别出各第一答复文本中与任意谓词内容字典树匹配成功的内容字符串(也即是识别出辅助字符串)。需要说明的是,第一次构造好谓词内容字典树和各节点的失配指针后,后续就可以直接基于谓词内容字典树进行多模式串匹配,而不必再次构造谓词内容字典树。
确定了辅助字符串后,分别将辅助字符串所在的谓词内容字典树对应的样本谓词,确定为辅助谓词。在多个第一答复文本中可能对应多个相同的辅助谓词,或者同一个第一答复文本中也可能对应多个相同的辅助谓词,统计相同辅助谓词的数量,将数量最多的辅助谓词确定为第一辅助谓词。例如,确定的辅助字符串分别为:男、男的、男人,且上述辅助字符串都是根据样本谓词“性别”对应的内容谓词字典树匹配得到的,因此上述3个辅助字符串对应的辅助谓词均为“性别”,即是辅助谓词“性别”的数量就为3。
可选的,由于第一答复文本中内容的多样性,因此,同一个第一答复文本可能对应多个相同的辅助谓词,例如,第一答复文本为:C是中国籍演员以及导演。那么上述第一答复文本与样本谓词“职业”所对应的所有内容字符串匹配后,可以得到辅助字符串“演员”以及辅助字符串“导演”,上述两个辅助字符串对应的辅助谓词均为“职业”,即第一答复文本“C既是演员也是导演”对应2个相同的辅助谓词。为了统计出来的辅助谓词的数量更公平,因此将对应于同一个第一答复文本的相同的多个辅助谓词合并为一个辅助谓词。
将对应于同一个第一答复文本的相同的多个辅助谓词合并为一个辅助谓词具体过程为:首先分别将辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词。若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值(此处的数量阈值可以是1),将上述大于数量阈值,且相同的第一参考谓词确定为第二参考谓词。然后再将相同的多个第二参考谓词合并为一个第二参考位置,将合并后的第二参考谓词以及没有被确定为第二参考谓词的第一参考谓词确定为辅助谓词,进而统计相同辅助谓词的数量,再将数量最多的辅助谓词确定为第一辅助谓词。继续延用上述例子,第一答复文本为:C是中国籍演员以及导演,辅助字符串分别为:中国、演员、导演,上述第一答复文本中辅助字符串“中国”对应的样本谓词为:国籍,两个辅助字符串“演员”和“导演”对应的样本谓词均为“职业”,因此将辅助字符串“中国”对应的样本谓词“国籍”确定为第一参考谓词,将辅助字符串“演员”对应的样本谓词“职业”确定为第一参考谓词,将辅助字符串“导演”对应的样本谓词“职业”也确定为第一参考谓词。由于第一参考谓词“职业”的数量大于数量阈值(数量阈值为1)且对应于同一个第一答复文本,因此将上述两个第一参考谓词“职业”均确定为第二参考谓词“职业”,并将两个相同的第二参考谓词“职业”合并和一个第二参考谓词“职业”,最后将合并后的一个第二参考谓词“职业”、第一参考谓词“国籍”确定为辅助谓词,即此时辅助谓词的数量只有2个。
步骤S103,为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
具体的,为第一问题模板以及确定的第一谓词设置映射关系,即是为第一问题模板设置一条映射规则,用于指示第一问题模板对应的第一谓词,后续可以将第一问题模板以及对应的第一谓词关联存储至用于存储映射规则的数据库中(如上述图1b所对应实施例中的数据库20y),例如,映射规则可以设置为:[person]的爱人是谁→妻子。若有多个第一文本,可以采用上述方式,首先分别将第一文本转化为第一问题模板,进而根据每个第一文本对应的第一答复文本、样本谓词、样本谓词对应的内容字符串确定每个第一问题模板对应的第一谓词,并为每个第一问题模板以及对应的第一谓词设置映射关系,需要说明的是,由于确定第一谓词需要大量的数据以及涉及大量的计算,设置映射关系都是在线下训练好的,在线上直接使用。当在线上获取到用户输入的待查询的第二文本时,首先将第二文本转化为第二问题模板,进而根据线下设置好的映射规则(映射关系),为第二问题模板查找具有映射关系的第一谓词,并根据查找到的第一谓词在知识库中查找对应的查询结果,这样可以快速并准确地知道用户的查询意图,进而提高向用户输出查询结果的速度,当然在线下训练的多个第一问题模板中,存在和上述第二问题模板相同的第一问题模板,这样才能查找到与第二问题模板具有映射关系的第一谓词。其中,知识库中存储了大量实体、实体的属性、属性的属性值;以及存储了大量实体,以及实体与实体之间的关系。
请参见图2c,是本发明实施例提供的一种知识库的示意图,如图2c所示,展示了关于北京市的部分知识库,包括人口数量、面积、邮政编码、市长、接壤城市、电话区号,在图2c中,实体包括:北京市、天津市、陈某某;谓词包括:人口数量、面积、邮政编码、市长、接壤、电话区号。谓词就是表示两个实体之间的关系以及实体的属性。
从所有关于谓词的内容字符串中查找属于问题模板的答复文本的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词。可以自动确定问题模板对应的谓词,进而自动为问题模板和对应的谓词建立映射关系,提高确定问题模板所对应谓词的效率;同时,将数量最多的谓词作为与问题模板具有对应关系的谓词,可以提高映射规则的准确率。
请一并参见图3,是本发明实施例提供的另一种文本处理方法的流程示意图,文本处理方法包括如下步骤:
步骤S201获取第一文本,将所述第一文本转换为第一问题模板。
其中,步骤S201的具体实现方式可以参见上述图2a所对应实施例中的步骤S101。
步骤S202,检测第一问题模板是否包括目标短语集合中的目标短语。
具体的,检测第一模板是否包括目标短语集合中的任意目标短语,若检测到第一模板包括目标短语集合中的任意目标短语,则执行步骤S203、步骤S205-步骤S208;若检测到第一模板不包括目标短语集合中的任意目标短语,则执行步骤S204-步骤S208。其中,目标短语可以是谓词,也可以是谓词别称,例如,“姓名”就是谓词,对应的谓词别称可以是:名字、称呼、大名等。为了避免混淆,若目标短语是谓词,将该目标短语称为硬谓词;若目标短语是谓词别称,将该目标短语称为软谓词。可以知道的是,目标集合中的目标短语(硬谓词或者软谓词)都是提前设置好的。
步骤S203,若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词。
具体的,若第一问题模板包括目标短语集合中的任意硬谓词,则将属于第一问题模板的硬谓词确定为第一谓词。若第一问题模板包括目标短语集合中的软谓词,则获取属于第一问题模板的软谓词对应的统称谓词(谓词),并将获取到的统称谓词确定为第一谓词。需要说明的是,由于第一文本中的问题是二元事实型问题,即一个第一文本只包含实体的一个属性问题。第一问题模板是由第一文本转换而来的,同理一个第一问题模板也只对应一个属性(谓词),即第一问题模板至多包含目标短语集合中的一个目标短语。举例来说,目标短语集合中包括硬谓词:出生日期,以及软谓词:出生时间、生辰,若第一问题模板为:[person]的出生日期是多少,由于第一问题模板“[person]的出生日期是多少”中包括硬谓词“出生日期”,因此上述第一问题模板对应的第一谓词即是“出生日期”。若第一问题模板为:[person]的生辰是多少,由于第一问题模板“[person]的生辰是多少”中包括软谓词“生辰”,而软谓词“生辰”对应的统称谓词是“出生日期”,因此上述第一问题模板对应的第一谓词也是“出生日期”。
步骤S204,若所述第一问题模板不包括所述目标短语集合中的目标短语,则获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词。
具体的,若第一问题模板不包括目标集合中的任何软谓词或者任何硬谓词,则获取与第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,将数量最多的辅助谓词确定为第一谓词。其中,根据第一答复文本、样本谓词以及内容字符串确定第一谓词的具体过程可以参见上述图2a所对应实施例中的步骤S102。
步骤S205,为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当获取到第二文本时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
其中,步骤S205的具体实现方式可以参见上述图2a所对应实施例中的步骤S103。
步骤S206,若获取到所述第二文本,则提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板。
具体的,当获取到第二文本时,识别第二文本中的实体,称为目标实体。获取目标实体对应的领域属性,称为目标领域属性。将获取到的目标领域属性替换第二文本中的目标实体,即得与第二文本对应的问题模板,称为第二问题模板(如上述图1c所对应实施例中的文本30b)。其中,获取第二文本的方式可以用户输入待查询的语音,将输入的语音转化为文本,称为第二文本;或者用户直接输入待查询的文本,将用户输入的文本作为第二文本。识别第二文本中的目标实体的方式可以是基于AC自动机执行多模式串匹配,查找出第二文本中与AC自动机中的字典树匹配成功的字符串,该匹配成功的字符串即是第二文本中的实体对应的字符串,上述字典树是根据大量的实体所对应的字符串构建而成的。其中,问题模板是具有扩展样例的一种通用的问题句式,领域属性是对应实体所在业务领域的统称。
步骤S207,查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词。
具体的,在多个第一问题模板中,查找与第二问题模板相同的第一问题模板,将查找出来的第一问题模板确定为目标模板。根据第一问题模板与第一谓词之间的映射关系(映射规则),将目标模板对应的第一谓词,确定为目标谓词。即在线上可以直接根据映射规则,快速查找第二问题模板对应的目标谓词。
步骤S208,将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。
具体的,根据预设的语法规则将目标实体和目标谓词组合为文本,称为目标查询文本(如上述图1c所对应实施例中的文本30d),其中语法规则可以是目标实体在前,目标谓词在后,这样在查找问题答案时不会混淆目标实体和目标谓词,进一步地提高查找问题答案的效率,且一个目标查询文本包括一个目标实体和一个目标谓词。在知识库(如上述图1c所对应实施例中的数据库30e)中查询目标文本对应的查询结果,以语音播报的方式或者字幕显示的方式输出查询到的查询结果,以使用户可以直接获取到第二文本对应的查询结果。知识库中存储了大量实体、实体的属性、属性的属性值;以及存储了大量实体,以及实体与实体之间的关系。
从所有关于谓词的内容字符串中查找属于问题模板的答复文本的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词。可以自动确定问题模板对应的谓词,进而自动为问题模板和对应的谓词建立映射关系,提高确定问题模板所对应谓词的效率;同时,将数量最多的谓词作为与问题模板具有对应关系的谓词,可以提高映射规则的准确率。
请一并参见图4,是本发明实施例提供的另一种文本处理方法的流程示意图,文本处理方法包括如下步骤:
步骤S301,获取第二文本。
具体的,当用户需要提问时,用户语音输入问题,将用户的语音转换为文本,并将上述由语音转换而来的文本作为第二文本;或者当用户需要提问时,用户直接输入问题文本,将上述问题文本作为第二文本。
步骤S302,提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板。
具体的,识别第二文本中的实体,称为目标实体。获取目标实体对应的领域属性,称为目标领域属性,其中实体以及每个实体对应的领域属性可以提前关联存储在数据库中。将获取到的目标领域属性替换第二文本中的目标实体,即得与第二文本对应的第二问题模板。例如,第二文本为:张三的妻子是谁。第二文本中的目标实体即是:张三,在人物领域,目标实体“张三”对应的目标领域属性是:person,因此,将目标领域属性“person”替换第二文本中的目标实体“张三”,得到第二问题模板:[person]的妻子是谁。其中,问题模板是具有扩展样例的一种通用的问题句式,领域属性是对应实体所在业务领域的统称。
步骤S303,根据多个第一问题模板以及多个第一谓词之间的映射关系,确定第二问题模板对应的目标谓词。
具体的,将第一问题模板与对应的第一谓词之间的映射关系称为映射规则。在数据库中存储了多个映射规则,即是关联存储了多个第一问题模板以及每个第一问题模板对应的第一谓词。在多个第一问题模板中,查找与第二问题模板相同的第一问题模板,将查找到的第一问题模板确定为目标模板。根据目标模板对应的映射规则,在数据库中提取与目标模板对应的第一谓词,将提取出来的第一谓词作为目标谓词,即目标谓词就是第二问题模板对应的谓词。其中,多个映射规则是提前设置好的,下面以设置一个映射规则(设置一个第一问题模板以及对应的第一谓词为)为例进行说明。
获取第一文本,识别第一文本中的实体,并获取该实体对应的领域属性,将获取到的领域属性替换第一文本中的实体,即得与第一文本对应的第一问题模板。若第一问题模板包括目标短语集合中的任意硬谓词,则将属于第一问题模板的硬谓词确定为第一谓词。若第一问题模板包括目标短语集合中的任意软谓词,则获取属于第一问题模板的软谓词对应的统称谓词(谓词),并将获取到的统称谓词确定为第一谓词。其中,目标短语集合中的目标短语可以是谓词,也可以是谓词别称。若目标短语是谓词,那么将该目标短语称为硬谓词,若目标短语是谓词别称,那么将该目标短语称为软谓词。可以知道的是,目标集合中的目标短语(硬谓词或者软谓词)都是提前设置好的。
若第一问题模板不包括目标集合中的任何软谓词或者任何硬谓词,则获取与第一文本相关联的第一答复文本,其中获取第一答复文本的具体过程可以参见图2a中的步骤S102。再获取样本谓词以及与样本谓词具有映射关系的内容字符串,其中,内容字符串是对应样本谓词的具体内容,例如,样本谓词“国籍”的内容字符串可以是:中国、日本、韩国、美国、英国等;样本谓词“职业”的内容字符串可以是:老师、医生、律师、演员等。在所有内容字符串中,基于AC自动机的,查找属于第一答复文本的内容字符串,并将查找出来的内容字符串对应的样本谓词,确定为辅助谓词。若有多个第一答复文本,在所有内容字符串中,分别查找属于第一答复文本的内容字符串,同样地,将查找出来的内容字符串对应的样本谓词,作为辅助谓词。为每个辅助谓词投票,即是统计每个辅助谓词到的数量,将投票数量最多的辅助谓词,确定为第一谓词。为了统计出来的辅助谓词的数量更公平,因此将对应于同一个第一答复文本的相同的多个辅助谓词合并为一个辅助谓词。
为第一问题模板以及确定的第一谓词设置映射关系,即是为第一问题模板设置一条映射规则,用于指示第一问题模板对应的第一谓词,后续可以将第一问题模板以及对应的第一谓词关联存储至用于存储映射规则的数据库。若有多个第一文本,可以采用上述方式,首先分别将第一文本转化为第一问题模板,进而确定每个第一问题模板对应的第一谓词,并为每个第一问题模板以及对应的第一谓词设置映射关系,设置第一问题模板与第一谓词之间的映射关系都是在线下训练好的。
步骤S304,将所述目标实体和所述目标谓词组合为目标查询文本。
具体的,按照目标实体在前目标谓词在后的顺序,将目标实体和目标谓词组合为文本,称为目标查询文本,目标查询文本即是第二文本的提问意图,确定第二文本的提问意图是为了后续在知识库中查找提问答案时,提高查找到的答案的准确率。
步骤S305,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。
具体的,在知识库中查找目标查询文本的查询结果,以语音播报的方式或者字幕显示的方式输出查询到的查询结果,以使用户可以直接获取到查询结果。其中,知识库中存储了大量实体、实体的属性、属性的属性值;以及知识库中存储了大量实体,以及实体与实体之间的关系。
从所有关于谓词的内容字符串中查找属于问题模板的答复文本的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词。可以自动确定问题模板对应的谓词,进而自动为问题模板和对应的谓词建立映射关系,避免手动为问题模板添加映射规则,提高确定问题模板所对应谓词的效率;同时,将数量最多的谓词作为与问题模板具有对应关系的谓词,可以提高映射规则的准确率。
进一步的,请参见图5,是本发明实施例提供的一种文本处理装置的结构示意图。如图5所示,文本处理装置1可以包括:第一转换模块11、第一获取模块12、第二获取模块13、设置模块14。
第一转换模块11,用于获取第一文本,将所述第一文本转换为第一问题模板;
具体的,第一转换模块11获取第一文本,其中第一文本可以来自预先获取的问答对中的问题文本,问答对包括问题文本和回答文本,需要说明的是第一文本中的问题是二元事实型问题,即询问实体某一方面的属性,换句话说一个第一文本只包含一个属性问题。第一转换模块11识别第一文本中的实体,并获取该实体对应的领域属性,将获取到的领域属性替换第一文本中的实体,可以得到与第一文本对应的问题模板,与第一文本对应的问题模板称为第一问题模板,多个实体以及每个实体对应的领域属性可以提前关联存储在数据库中,后续可以直接在数据库中查找实体对应的领域属性。
第一获取模块12,用于获取与所述第一文本相关联的第一答复文本;
第二获取模块13,用于获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;
具体的,第二获取模块13获取样本谓词以及与样本谓词具有映射关系的内容字符串,其中,内容字符串是对应样本谓词的具体内容,例如,样本谓词“国籍”的内容字符串可以是:中国、美国、日本等。在所有内容字符串中,第二获取模块13查找属于第一答复文本的内容字符串,并将查找出来的内容字符串对应的样本谓词,确定为辅助谓词。若有多个第一答复文本,在所有内容字符串中,分别查找属于第一答复文本的内容字符串,同样地,将查找出来的内容字符串对应的样本谓词,作为辅助谓词。统计相同辅助谓词的数量,将数量最多的辅助谓词,确定为第一谓词。
设置模块14,用于为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
具体的,设置模块14为第一问题模板以及确定的第一谓词设置映射关系,即是为第一问题模板设置一条映射规则,用于指示第一问题模板对应的第一谓词,后续可以将第一问题模板以及对应的第一谓词关联存储至用于存储映射规则的数据库中,例如,映射规则可以设置为:[person]的岁数多大→年龄。
请参见图5,文本处理装置1可以包括:第一转换模块11、第一获取模块12、第二获取模块13、设置模块14,还可以包括:第一确定模块15、通知模块16。
第一确定模块15,用于若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;
通知模块16,用于若所述第一问题模板不包括所述目标短语集合中的目标短语,则通知所述第一获取模块执行所述获取与所述第一文本相关联的第一答复文本。
其中,第一确定模块15、通知模块16的具体功能实现方式可以参见上述图3对应实施例中的步骤S202-步骤S204,这里不再进行赘述。
请参见图5,第一确定模块15可以包括:第一确定单元151、第二确定单元152。
第一确定单元151,用于若所述第一问题模板包括所述目标短语集合中的硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;
第二确定单元152,用于若所述第一问题模板包括所述目标短语集合中的软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。
其中,第一确定单元151、第二确定单元152的具体功能实现方式可以参见上述图3对应实施例中的步骤S203,这里不再进行赘述。
请参见图5,文本处理装置1可以包括:第一转换模块11、第一获取模块12、第二获取模块13、设置模块14、第一确定模块15、通知模块16,还可以包括:提取模块17、第二转换模块18、输出模块19。
提取模块17,用于若获取到所述第二文本,则提取所述第二文本中的目标实体;
第二转换模块18,用于根据所述目标实体将所述第二文本转换为第二问题模板;
所述提取模块17,还用于查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;
输出模块19,用于将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。
其中,提取模块17、第二转换模块18、输出模块19的具体功能实现方式可以参见上述图3对应实施例中的步骤S206-步骤S208,这里不再进行赘述。
请参见图5,标短语包括硬谓词和软谓词;
第二转换模块18可以包括:第一获取单元181、替换单元182。
第一获取单元181,用于获取与所述目标实体对应的目标领域属性;
替换单元182,用于将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。
其中,第一获取单元181、替换单元182的具体功能实现方式可以参见上述图3对应实施例中的步骤S206,这里不再进行赘述。
请参见图5,第二获取模块13可以包括:第二获取单元131、查找单元132、第三确定单元133、统计单元134。
第二获取单元131,用于获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;
查找单元132,用于基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;
第三确定单元133,用于将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;
统计单元134,用于统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。
其中,第二获取单元131、查找单元132、第三确定单元133、统计单元134的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102,这里不再进行赘述。
请参见图5,第二获取单元131可以包括:获取子单元1311、构建子单元1312。
获取子单元1311,用于获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;
构建子单元1312,用于根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字符串中的一个字符;
所述构建子单元1312,还用于根据宽度优先搜索,为所述各谓词内容字典树中的各节点设置失配指针。
其中,获取子单元1311、构建子单元1312的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102,这里不再进行赘述。
请参见图5,第三确定单元133可以包括:确定子单元1331、合并子单元1332。
确定子单元1331,用于将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词;
合并子单元1332,用于若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值,则将大于所述数量阈值的相同的第一参考谓词确定为第二参考谓词,并将所述第二参考谓词合并为一个第二参考谓词;
所述确定子单元1331,还用于将合并后的第二参考谓词、未被确定为所述第二参考谓词的第一参考谓词确定为所述辅助谓词。
其中,确定子单元1331、合并子单元1332的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102,这里不再进行赘述。
请参见图5,第一获取模块12可以包括:计算单元121、爬取单元122。
计算单元121,用于提取所述第一文本中的关键词;
所述计算单元121,还用于根据索引库中多个页面的页面名称和所述关键词的匹配程度,以及各页面的链接频次,计算所述各页面的相关度排名;
爬取单元122,用于将所述相关度排名小于排名阈值的页面作为目标页面,爬取所述目标页面中的内容,将爬取的内容封装为所述第一答复文本。
其中,计算单元121、爬取单元122的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102,这里不再进行赘述。
请参见图5,文本处理装置1可以包括:第一转换模块11、第一获取模块12、第二获取模块13、设置模块14、第一确定模块15、通知模块16、提取模块17、第二转换模块18、输出模块19,还可以包括:第三获取模块20。
第三获取模块20,用于获取问答对;所述问答对包括问题文本和回答文本;
所述第三获取模块20,还用于将所述问题文本确定为所述第一文本,并将所述回答文本确定为所述内容字符串。
其中,第三获取模块20的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,这里不再进行赘述。
从所有关于谓词的内容字符串中查找属于问题模板的答复文本的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词。可以自动确定问题模板对应的谓词,进而自动为问题模板和对应的谓词建立映射关系,提高确定问题模板所对应谓词的效率;同时,将数量最多的谓词作为与问题模板具有对应关系的谓词,可以提高映射规则的准确率。
进一步地,请参见图6,是本发明实施例提供的一种电子设备的结构示意图。如图6所示,上述图6中的文本处理装置1可以应用于所述电子设备1000,所述电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图6所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第一文本,将所述第一文本转换为第一问题模板;
获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;
为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
在一个实施例中,所述处理器1001还执行以下步骤:
若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;
若所述第一问题模板不包括所述目标短语集合中的目标短语,则执行所述获取与所述第一文本相关联的第一答复文本的步骤。
在一个实施例中,目标短语包括硬谓词和软谓词;
所述处理器1001在执行若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词时,具体执行以下步骤:
若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;
若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。
在一个实施例中,所述处理器1001还执行以下步骤:
若获取到所述第二文本,则提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板;
查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;
将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果
在一个实施例中,所述处理器1001在执行根据所述目标实体将所述第二文本转换为第二问题模板时,具体执行以下步骤:
获取与所述目标实体对应的目标领域属性;
将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。
在一个实施例中,所述处理器1001在执行获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词时,具体执行以下步骤:
获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;
基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;
将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;
统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。
在一个实施例中,所述处理器1001在执行获取多个谓词内容字典树时,具体执行以下步骤:
获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;
根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字符串中的一个字符;
根据宽度优先搜索,为所述各谓词内容字典树中的各节点设置失配指针。
在一个实施例中,所述处理器1001在执行将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词时,具体执行以下步骤:
将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词;
若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值,则将大于所述数量阈值的相同的第一参考谓词确定为第二参考谓词,并将所述第二参考谓词合并为一个第二参考谓词;
将合并后的第二参考谓词、未被确定为所述第二参考谓词的第一参考谓词确定为所述辅助谓词。
在一个实施例中,所述处理器1001在执行获取与所述第一文本相关联的第一答复文本时,具体执行以下步骤:
提取所述第一文本中的关键词;
根据索引库中多个页面的页面名称和所述关键词的匹配程度,以及各页面的链接频次,计算所述各页面的相关度排名;
将所述相关度排名小于排名阈值的页面作为目标页面,爬取所述目标页面中的内容,将爬取的内容封装为所述第一答复文本。
在一个实施例中,所述处理器1001还执行以下步骤:
获取问答对;所述问答对包括问题文本和回答文本;
将所述问题文本确定为所述第一文本,并将所述回答文本确定为所述内容字符串。
从所有关于谓词的内容字符串中查找属于问题模板的答复文本的内容字符串,统计查找出来的内容字符串对应的谓词的数量,数量最多的谓词即是问题模板的映射规则所对应的谓词。可以自动确定问题模板对应的谓词,进而自动为问题模板和对应的谓词建立映射关系,避免手动为问题模板添加映射规则,提高确定问题模板所对应谓词的效率;同时,将数量最多的谓词作为与问题模板具有对应关系的谓词,可以提高映射规则的准确率。
应当理解,本发明实施例中所描述的电子设备1000可执行前文图2a到图4所对应实施例中对所述文本处理方法的描述,也可执行前文图5所对应实施例中对所述文本处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的文本处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2a到图4所对应实施例中对所述文本处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (15)
1.一种文本处理方法,其特征在于,包括:
获取第一文本,将所述第一文本转换为第一问题模板;
获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;
为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时,查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;
若所述第一问题模板不包括所述目标短语集合中的目标短语,则执行所述获取与所述第一文本相关联的第一答复文本的步骤。
3.根据权利要求2所述的方法,其特征在于,所述目标短语包括硬谓词和软谓词;
所述若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词,包括:
若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;
若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。
4.根据权利要求1所述的方法,其特征在于,还包括:
若获取到所述第二文本,则提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板;
查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;
将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。
5.根据权利要求4所述的方法,特征在于,所述根据所述目标实体将所述第二文本转换为第二问题模板,包括:
获取与所述目标实体对应的目标领域属性;
将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。
6.根据权利要求1所述的方法,其特征在于,所述获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词,包括:
获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;
基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;
将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;
统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。
7.根据权利要求6所述的方法,其特征在于,所述获取多个谓词内容字典树,包括:
获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;
根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字符串中的一个字符;
根据宽度优先搜索,为所述各谓词内容字典树中的各节点设置失配指针。
8.根据权利要求6所述的方法,其特征在于,所述将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词,包括:
将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词;
若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值,则将大于所述数量阈值的相同的第一参考谓词确定为第二参考谓词,并将所述第二参考谓词合并为一个第二参考谓词;
将合并后的第二参考谓词、未被确定为所述第二参考谓词的第一参考谓词确定为所述辅助谓词。
9.根据权利要求1所述的方法,其特征在于,所述获取与所述第一文本相关联的第一答复文本,包括:
提取所述第一文本中的关键词;
根据索引库中多个页面的页面名称和所述关键词的匹配程度,以及各页面的链接频次,计算所述各页面的相关度排名;
将所述相关度排名小于排名阈值的页面作为目标页面,爬取所述目标页面中的内容,将爬取的内容封装为所述第一答复文本。
10.根据权利要求1所述的方法,其特征在于,还包括:
获取问答对;所述问答对包括问题文本和回答文本;
将所述问题文本确定为所述第一文本,并将所述回答文本确定为所述内容字符串。
11.一种文本处理装置,其特征在于,包括:
第一转换模块,用于获取第一文本,将所述第一文本转换为第一问题模板;
第一获取模块,用于获取与所述第一文本相关联的第一答复文本;
第二获取模块,用于获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;
设置模块,用于为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时,查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。
12.根据权利要求11所述的装置,其特征在于,还包括:
第一确定模块,用于若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;
通知模块,用于若所述第一问题模板不包括所述目标短语集合中的目标短语,则通知所述第一获取模块执行所述获取与所述第一文本相关联的第一答复文本。
13.根据权利要求12所述的装置,其特征在于,所述目标短语包括硬谓词和软谓词;
所述第一确定模块,包括:
第一确定单元,用于若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;
第二确定单元,用于若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。
14.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-10任一项所述的方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810917643.0A CN110209781B (zh) | 2018-08-13 | 2018-08-13 | 一种文本处理方法、装置以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810917643.0A CN110209781B (zh) | 2018-08-13 | 2018-08-13 | 一种文本处理方法、装置以及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209781A true CN110209781A (zh) | 2019-09-06 |
CN110209781B CN110209781B (zh) | 2023-04-07 |
Family
ID=67779979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810917643.0A Active CN110209781B (zh) | 2018-08-13 | 2018-08-13 | 一种文本处理方法、装置以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209781B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807325A (zh) * | 2019-10-18 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN111046252A (zh) * | 2019-11-20 | 2020-04-21 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质、电子设备和系统 |
CN114564599A (zh) * | 2022-04-28 | 2022-05-31 | 中科雨辰科技有限公司 | 一种基于查询字符串模板的检索系统 |
CN115328321A (zh) * | 2022-10-14 | 2022-11-11 | 深圳市人马互动科技有限公司 | 基于身份转换的人机交互方法及相关产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118519A1 (en) * | 2005-11-21 | 2007-05-24 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
CN104156431A (zh) * | 2014-08-08 | 2014-11-19 | 西安交通大学 | 一种基于实体图社团结构的rdf关键词查询方法 |
JP2016057810A (ja) * | 2014-09-09 | 2016-04-21 | 日本電信電話株式会社 | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 |
CN108021691A (zh) * | 2017-12-18 | 2018-05-11 | 深圳前海微众银行股份有限公司 | 答案查找方法、客服机器人以及计算机可读存储介质 |
CN108241649A (zh) * | 2016-12-23 | 2018-07-03 | 北京奇虎科技有限公司 | 基于知识图谱的搜索方法及装置 |
-
2018
- 2018-08-13 CN CN201810917643.0A patent/CN110209781B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118519A1 (en) * | 2005-11-21 | 2007-05-24 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
CN104156431A (zh) * | 2014-08-08 | 2014-11-19 | 西安交通大学 | 一种基于实体图社团结构的rdf关键词查询方法 |
JP2016057810A (ja) * | 2014-09-09 | 2016-04-21 | 日本電信電話株式会社 | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 |
CN108241649A (zh) * | 2016-12-23 | 2018-07-03 | 北京奇虎科技有限公司 | 基于知识图谱的搜索方法及装置 |
CN108021691A (zh) * | 2017-12-18 | 2018-05-11 | 深圳前海微众银行股份有限公司 | 答案查找方法、客服机器人以及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
刘亮亮等: "基于查询模板的特定领域中文问答系统的研究与实现", 《江苏科技大学学报(自然科学版)》 * |
尉云峰: "谓词逻辑在答疑系统中的应用", 《计算机与现代化》 * |
张涛等: "基于知识库的开放领域问答系统", 《智能系统学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807325A (zh) * | 2019-10-18 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN110807325B (zh) * | 2019-10-18 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN111046252A (zh) * | 2019-11-20 | 2020-04-21 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质、电子设备和系统 |
CN114564599A (zh) * | 2022-04-28 | 2022-05-31 | 中科雨辰科技有限公司 | 一种基于查询字符串模板的检索系统 |
CN115328321A (zh) * | 2022-10-14 | 2022-11-11 | 深圳市人马互动科技有限公司 | 基于身份转换的人机交互方法及相关产品 |
CN115328321B (zh) * | 2022-10-14 | 2023-03-24 | 深圳市人马互动科技有限公司 | 基于身份转换的人机交互方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110209781B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN110209781A (zh) | 一种文本处理方法、装置以及相关设备 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN107690634B (zh) | 自动查询模式生成方法及系统 | |
CN102682000A (zh) | 一种文本聚类方法以及采用该方法的问答系统和搜索引擎 | |
CN111339277A (zh) | 基于机器学习的问答交互方法及装置 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN104391969A (zh) | 确定用户查询语句句法结构的方法及装置 | |
CN114595686A (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN106484678A (zh) | 一种短文本相似度计算方法及装置 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN113254671B (zh) | 基于query分析的图谱优化方法、装置、设备及介质 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Xu et al. | Estimating similarity of rich internet pages using visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |