CN111382255B - 用于问答处理的方法、装置、设备和介质 - Google Patents

用于问答处理的方法、装置、设备和介质 Download PDF

Info

Publication number
CN111382255B
CN111382255B CN202010188703.7A CN202010188703A CN111382255B CN 111382255 B CN111382255 B CN 111382255B CN 202010188703 A CN202010188703 A CN 202010188703A CN 111382255 B CN111382255 B CN 111382255B
Authority
CN
China
Prior art keywords
question
knowledge
text
answer
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010188703.7A
Other languages
English (en)
Other versions
CN111382255A (zh
Inventor
纪登林
徐伟建
罗雨
彭卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010188703.7A priority Critical patent/CN111382255B/zh
Publication of CN111382255A publication Critical patent/CN111382255A/zh
Application granted granted Critical
Publication of CN111382255B publication Critical patent/CN111382255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了用于问答处理的方法、装置、设备和介质,涉及知识图谱技术领域。一种问答处理的方法包括确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度,以及基于相应语义相似度,从知识库中选择多个候选知识文本。该方法还包括确定问题文本所包括的字符与多个候选知识文本各自包括的字符之间的相应字符相似度。该方法进一步包括至少基于相应字符相似度来确定待解答问题对应的答案。通过该方案,能够为问题确定更准确的答案。

Description

用于问答处理的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及自然语言处理技术,尤其是涉及知识图谱技术领域。
背景技术
随着计算机网络技术的发展,各种应用,例如网页应用或终端应用会提供与用户交互的自动问答平台或窗口。用户可以通过问答平台或窗口提交在使用应用过程中遇到的问题,以期获得问题对应的答案。为支持自动问答,通常会收集大量知识数据,以问题-答案对的形式进行存储,构成知识库。在接收到用户的问题时,通过从知识库中查找匹配知识来向用户提供答案。因此,在自动问答应用中,文本匹配技术是获得准确答案的一个重要方面。
发明内容
根据本公开的实施例,提供了一种用于问答处理的方案。
在本公开的第一方面,提供了一种问答处理的方法。该方法包括确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度,以及基于相应语义相似度,从知识库中选择多个候选知识文本。该方法还包括确定问题文本所包括的字符与多个候选知识文本各自包括的字符之间的相应字符相似度。该方法进一步包括至少基于相应字符相似度来确定待解答问题对应的答案。
在本公开的第二方面,提供了一种用于问答处理的装置。该装置包括语义相似度确定模块,被配置为确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度;以及知识文本选择模块,被配置为基于相应语义相似度,从知识库中选择多个候选知识文本。该装置还包括字符相似度确定模块,被配置为确定问题文本所包括的字符与多个候选知识文本各自包括的字符之间的相应字符相似度。该装置进一步包括答案确定模块,被配置为至少基于相应字符相似度来确定待解答问题对应的答案。
在本公开的第三方面,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中应用的环境的示意图;
图2示出了根据本公开的一些实施例的自动问答处理系统的框图;
图3示出了根据本公开的一些实施例的示例语义相似度确定模型的框图;
图4示出了根据本公开的一些实施例的问答处理的方法的流程图;
图5示出了根据本公开的一些实施例的用于问答处理的装置的框图;以及
图6示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
图1示出了本公开的多个实施例能够在其中应用的环境100的示意图。在环境100中,计算设备110被配置为基于知识库120来向用户130提供自动问答服务。知识库120存储问题和对应的答案,组成问题-答案对。在操作中,用户130可以经由客户端140向问答处理系统112发送问答请求,其包括问题102。计算设备110通过从知识库120中查找与问题102匹配的文本,来确定问题102的答案104,并且向用户130提供答案104。计算设备110可以包括问答处理系统112,用于对来自用户130的问答请求进行响应以及向用户130返回答案104。这样的问答处理系统在一些应用中还可以被称为FAQ-QA(Frequently Asked Questions-Question Answers,常见问题-问题答案)。
计算设备110可以是具有计算能力的任何物理设备或虚拟设备。计算设备110的示例包括但不限于服务器、大型计算机、小型计算机、边缘计算节点、个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统,或者包括上述系统或设备中的任意一个的分布式计算系统等。虽然示出为单个设备,计算设备110的功能还可以由多个设备来实现。
在问答处理过程中,文本匹配技术是获得准确答案的一个重要方面。文本匹配技术是自然语言处理技术之一。当前随着人工智能技术的发展,已经提出了基于预训练的机器学习模型来实现文本处理。机器学习模型通过训练可以确定两个文本之间的语义匹配程度。然而,机器学习模型的语义匹配方案受限于训练数据的模式,因此通常会要求输入的两个文本的长度相似。对于两个长度不同的文本可能无法给出从语义级别上给出准确的匹配结果。
根据本公开的实施例,提出了一种用于问答处理的方案。根据该方案,通过语义相似度从知识库中筛选一些候选知识文本,再确定问题文本与所筛选的候选知识文本之间的相应字符相似度。基于相应字符相似度,确定问题文本对应的待解答问题的答案。也就是说,在该方案中,将语义级别的相似度与字符级别的相似度结合起来确定问题的答案。这样不仅可以确保文本的语义不失真,而且还可以弥补仅依赖于语义匹配时对长短文本匹配效果不佳的问题。通过该方案,能够为问题确定更准确的答案。
以下将参照附图来具体描述本公开的实施例。
图2示出了根据本公开的一些实施例的问答处理系统的框图。为便于讨论,将参考图1的计算设备110中的问答处理系统112来描述本公开的实施例。
如图2所示,问答处理系统112包括语义筛选子系统210、字符筛选子系统220和答案确定子系统230。这些子系统可以被实现在单个设备上,或者可以被分布实现在多个设备上。在分布式实现的示例中,计算设备110可以被认为是分布式计算系统。
语义筛选子系统210被配置为执行语义级别的文本匹配,以基于语义相似度从知识库120的知识文本205中为与问题102相对应的问题文本202选择多个候选知识文本212。字符筛选子系统220被配置为执行字符级别的文本匹配,确定问题文本202与多个候选知识212之间的相应字符相似度222。字符相似度222被提供给答案确定子系统230,以用于确定问题102对应的答案104。
具体地,问答处理系统112接收待解答的问题102。响应于接收到问题102,问答处理系统112中的语义筛选子系统210确定问题102对应的问题文本202与知识库120中的知识文本205之间的相应语义相似度。语义相似度可以从语义级别上反映问题文本202与知识文本205是否相似或匹配,以及相似或匹配的程度如何。
要用于确定语义相似度的问题文本202可以基于问题102的类型。在一些实施例中,问题102可以是问答类型的问题,例如问答题。这类问题本身不设定候选答案。问答题的一个示例:计算机的中央处理器的英文缩写是什么。在这种情况下,要用于进行语义相似度确定的问题文本202包括问答题的题干,例如问题本身所包括的文本。
在另外一些实施例中,问题102可以是选择题类型的问题,例如选择题。这类问题通常包括题干和多个备选项,问题的答案出自于多个备选项中的一个。选择题的一个示例是:怀疑某部位有深部脓肿时最常用的有效检查的是:A、X线摄片,B、B超,D、局部穿刺,E远红外扫描。如果问题102是选择题,要用于进行语义相似度确定的问题文本202包括选择题的题干和多个备选项中的一个备选项。这样,可以衡量该备选项是否是正确答案。在一些实施例中,对于选择题中的每个备选项,可以类似地构建对应的问题文本202,以衡量对应备选项是否是正确答案。对于选择题的答案的具体确定将在下文中详细讨论。
问题102对应的问题文本202会被用于与知识库120中已有的知识文本205进行语义级别的比较。知识库120可以包括QA(Question-Answer,问题-答案)对,也可简称为问答对。这样,在知识库120,每个问题都可以对应于已知的答案。在一些实施例中,QA对可以基于知识图谱技术来存储。例如,QA对可以基于SPO(Subject-Predication-Object,主语-谓语-宾语)三元组的进行存储。在每个SPO三元组中,主语S和谓语P可以对应于QA对中的问题,宾语Q可以对应于QA对中的答案。当然,还可以采用任何其他知识构造和存储形式来组织和存储QA对,本公开的实施例在此方面不受限制。
知识库120中的QA对可以基于已知的知识来构建。在一些实施例中,可以通过从权威数据库、教材等知识源获取资源以用于构建QA对。在一些实施例中,知识库120可以被构建为与某个领域相对应。例如,可以构建医学领域的知识库、生活常识领域的知识库、自然百科的知识库,等等。这样可以更有针对性地且更准确地提供领域相关的问题的答案。
知识库120中存储的问题和答案都可以认为是可用于引导问题回答的知识。在知识库120的QA对的基础上,语义筛选子系统210用于与问题文本202进行语义相似度比较的知识文本205也与问题102的类型有关。例如,如果问题102是问答题,一个知识文本205包括知识库120的一个QA对中的问题(Q)本身。如果问题102是选择题,知识文本205包括知识库120中的一个QA对,因为在选择题的情况下,问题文本202所包括的题干和备选项的组合相当于是构成了问题-答案组合。
在一些实施例中,语义筛选子系统210可以利用预先训练的机器学习模型来实现问题文本202与知识文本205之间的语义相似度的确定。借助机器学习甚至是深度学习技术,可以实现更准确的语义相似度计算。图3示出了这样的机器学习模型300的示例。机器学习模型300的输入包括问题文本202和知识文本205,输出是问题文本202与知识文本205之间的语义相似度312。如果语义筛选子系统210要确定问题文本202与多个知识文本205之间的语义相似度,对于每个知识文本205,均可以类似地利用机器学习模型300来进行计算。
机器学习模型300可以是任何类型的适合自然语言处理的模型。因此,机器学习模型300还可以被称为自然语言处理模型。机器学习模型300的示例包括但不限于ERNIE(Enhanced Language Representation with Informative Entities,具有信息实体的增强型语言表示)模型、ELMO(Embeddings from Language Model,来自语言模型的嵌入)模型、BERT(Bidirectional Encoder Representations from Transformers,来自转换器的双向编码器表示)模型、GPT(Generative Pre-Training,生成式预训练)模型,基于各种类型的神经网络的其他模型,等等。机器学习模型300可以基于训练数据来训练。在一些实施例中,还可以基于特定领域的文本来训练机器学习模型300,以使得机器学习模型300能够更准确地对于该领域的文本。
应当理解,虽然描述了基于机器学习模型300的语义相似度计算方法,在另外的一些实施例中,还可以采用其他方法来确定语义相似度。在一些实施例中,基于不同方法确定的问题文本202与知识文本205之间的多个语义相似度还可以被加和、或加权平均来确定最终的语义相似度。
在一些实施例中,语义筛选子系统210可以对知识库120中的知识文本205逐条执行语义相似度的计算。如果知识库120中的知识文本205的数目较多,可能会导致问答处理时延增加和资源开销。虽然可以通过并行计算的方式来提高处理速度,但这对语义筛选子系统210的并行处理能力要求增高。在一些实施例中,为了提高处理速度和降低资源开销,语义筛选子系统210可以采用关键词索引的方式从知识库120中快速初筛一组知识文本205用于具体计算与问题文本202的语义相似度。
具体地,可以建立知识库120中的各个知识文本,例如各个QA对的索引。索引构建可以基于倒排索引技术,例如Elasticsearch(ES)倒排索引技术。其他索引技术也可以被采用。通过建立索引,每个知识文本可以由一个或多个关键词索引。在获得问题文本202之后,语义筛选子系统210可以从问题文本202提取一个或多个目标关键词,然后将目标关键词与知识库120中索引到知识文本的关键词进行匹配,从而可以定位关键词匹配的一组知识文本205。在一些实施例中,可以获取预定数目的关键词匹配的知识文本。预定数目是可配置的,例如可以是300、500等。
语义筛选子系统210可以计算问题文本202与基于关键词匹配获得的一组知识文本之间的语义相似度,而无需遍历知识库120中的所有知识文本,这样可以显著降低处理时延和资源开销。
基于所确定的问题文本202与知识库120中的知识文本之间的相应语义相似度,语义筛选子系统210从知识库120中选择多个候选知识文本212以用于后续进一步筛选。例如,语义筛选子系统210可以基于语义相似度的大小对知识文本进行排序,并且选择语义相似度较高或最高的一些候选知识文本212。要选择的候选知识文本212的数目可以任何数目并且可以被预定,例如可以是10、20、30个等。
在一些实施例中,语义筛选子系统210还可以设置语义相似度阈值,并且仅从语义相似度大于预定语义相似度阈值的知识文本205中选择候选知识文本212。语义相似度阈值的使用可以避免将语义相似度过低的知识文本提供到后续处理过程中。
多个候选知识文本212被提供给字符筛选子系统220。字符筛选子系统220确定问题文本202所包括的字符与各个候选知识文本212包括的字符之间的相应字符相似度222。问题文本202和每个候选知识文本212各自都包括一定数目的字符。字符相似度可以从字符级别上反映问题文本202与候选知识文本212是否相似或匹配,以及相似或匹配的程度如何。
字符筛选子系统220可以利用各种字符相似度计算技术。在一些实施例中,字符筛选子系统220可以确定问题文本202所包括的字符与每个候选知识文本212包括的字符之间的相应编辑距离,并且基于编辑距离来确定这两个文本之间的字符相似度。编辑距离,也称为莱文斯坦,指的是将一个字符序列编辑转换为另一个字符序列所需要的编辑次数。编辑可以包括将一个字符替换成另一个字符,插入一个字符,删除一个字符等等。一般来说,编辑距离越小,两个字符序列之间的相似度越大。编辑距离的使用能够更准确地问题文本202所包括的字符与每个候选知识文本212包括的字符之间的相似度。
在一个实施例中,字符相似度可被确定为等于编辑距离。附加地或备选地,还可以采用其他字符相似度计算方法来计算相似度。在一个示例中,不同字符相似度计算方法确定的字符相似度还可以被加和或者加权平均来得到问题文本202与候选知识文本212之间的字符相似度222。
字符筛选子系统220确定的问题文本202与各个候选知识文本212之间的相应字符相似度222被提供给答案确定子系统230以用于确定问题102对应的答案。在一些实施例中,除字符相似度222之外,语义筛选子系统210确定的问题文本102与各个候选知识文本212之间的语义相似度也可以被提供给答案确定子系统230以用于更准确地确定答案104。
答案104的确定可以基于问题102的类型。在一些实施例中,如果问题102是问答题,答案104可以来自于某个候选知识文本212在知识库120中相关联的答案。在这种情况下,答案确定子系统230可以基于字符相似度222,从多个候选知识文本212中选择一个或多个目标知识文本,然后从知识库120中获取与每个目标知识文本相关联的答案文本,例如知识库120中QA对中的答案(A)。所获取的答案文本可以被确定为问题102的答案104。目标知识文本可以被选择为具有较高或最高字符相似度的候选知识文本212,并且所选择的目标知识文本可以是一个或多个。
为进一步提高答案的准确度,在一些实施例中,还可以综合考虑字符相似度和语义相似度来选择目标知识文本。例如,答案确定子系统230可以将每个候选知识文本212与问题文本202之间的字符相似度和语义相似度直接加和、或加权求和,然后基于加和后的相似度的大小来选择一个或多个目标知识文本。
在一些实施例中,答案确定子系统230还可以设置字符相似度阈值,并且通过字符相似度与字符相似度阈值的比较,从多个候选知识文本212中筛选掉字符相似度低于阈值的候选知识文本。目标知识文本可以选自于剩余的字符相似度大于阈值的候选知识文本。这样的字符相似度阈值的使用可以避免依赖字符相似度过低的知识文本来确定问题的答案。
在一些实施例中,如果还基于与语义相似度的加和来选择目标知识文本,则可以类似设置一个相似度阈值,并且仅选择加和后的相似度最高并且大于相似度阈值的目标知识文本。这样可以避免向用户提供置信度较低的答案,提高对所提供的答案的置信度。
在一些实施例中,如果问题102是选择题,如以上提及的,问题文本102包括选择题的题干和一个备选项。在此情况下,答案确定子系统230可以基于字符相似度并且在一些示例中还基于语义相似度来确定问题文本102中的备选项的选项得分,该选项得分可以指示对应的备选项的正确性。
在一些实施例中,在计算选项得分时,答案确定子系统230可以基于多个候选知识文本212的字符相似度和语义相似度直接加和或加权求和,然后基于加和后的相似度的大小来确定选项得分。例如,选项得分可以被确定为加和后最高的相似度。在一些实施例中,答案确定子系统230也可以类似地设置字符相似度阈值,并且通过字符相似度与字符相似度阈值的比较,从多个候选知识文本212中筛选掉字符相似度低于阈值的候选知识文本,避免这些较低字符相似度影响答案的准确性。选项得分的确定可以基于剩余的候选知识文本来进行。
对于选择题中的其他备选项,可以构建对应的问题文本,并且通过以上关于问题文本202所描述的一些实施例,由语义筛选子系统210、字符筛选子系统220和答案确定子系统230来共同确定这些备选项的选项得分。在确定选择题的每个备选项的选项得分之后,答案确定子系统230可以通过比较多个备选项的选项得分来确定选择题的正确备选项,即问题的答案。例如,正确备选项可以被确定为选项得分最高的那个备选项。在一些实施例中,如果选择题存在多个正确备选项,也可以相应地根据选项得分的大小来确定。
在一些实施例中,答案确定子系统230还可以设置得分阈值,并且将各个备选项的选项得分与得分阈值比较。正确备选项可以被确定为选项得分最高并且大于得分阈值的一个或多个备选项。这样可以确保以较高置信度提供问题102的答案。如果针对所有备选项确定的选项得分均低于阈值,问答处理系统112可以反馈答案获取失败的指示。
根据本公开的实施例,字符相似度和语义相似度结合起来用于实现问答处理。这两种类型的相似度可以互相补充。例如,如果语义筛选子系统210对长度不匹配的两个文本的语义相似度的计算准确度较低,如果两个文本实际包含较多相似字符,那么后续字符相似度可以弥补语义相似度计算的不足,从而使得语义相似度达标并且相似字符较多的文本具有更高的匹配程度。另一方面,如果仅考虑字符相似度而不考虑文本的语义信息,可能导致匹配失误。例如,对于相似字符较多而语义完全相反的文本,字符相似度会被计算为很高,这不利于问答处理。通过结合语义相似度,可以显著缓解这样的匹配失误。
图4示出了根据本公开的一些实施例的问答处理的方法400的流程图。方法400可以由图1的计算设备110实现。
在框410,计算设备110确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度。在框420,计算设备110基于相应语义相似度,从知识库中选择多个候选知识文本。在框430,计算设备110确定问题文本所包括的字符与多个候选知识文本各自包括的字符之间的相应字符相似度。在框440,计算设备110至少基于相应字符相似度来确定待解答问题对应的答案。
在一些实施例中,确定相应语义相似度包括:利用预先训练的机器学习模型来确定问题文本与知识库中的知识文本之间的相应语义相似度。
在一些实施例中,知识库中的知识文本由相应关键词索引。方法400还包括从问题文本提取目标关键词;以及基于目标关键词和知识库中索引到知识文本的关键词之间的匹配,从知识库中确定一组知识文本。在一些实施例中,确定相应语义相似度包括:确定问题文本与一组知识文本中的相应知识文本之间的相应语义相似度。
在一些实施例中,确定相应字符相似度包括:确定问题文本所包括的字符与所选择的多个候选知识文本各自包括的字符之间的相应编辑距离;以及基于相应编辑距离来确定相应字符相似度。
在一些实施例中,确定待解答问题对应的答案还包括:还基于问题文本与多个候选知识文本之间的语义相似度来确定待解答问题对应的答案。
在一些实施例中,待解答问题包括选择题,问题文本包括选择题的题干和多个备选项中的给定备选项。在一些实施例中,确定待解答问题对应的答案包括:至少基于相应字符相似度来确定指示给定备选项的正确性的给定选项得分;确定多个备选项中的其他备选项的选项得分;以及通过比较给定选项得分和其他备选项的选项得分来确定选择题的正确备选项。
在一些实施例中,确定给定选项得分还包括:基于相应字符相似度和相应语义相似度的加和来确定给定选项得分。
在一些实施例中,待解答问题包括问答题,问题文本包括问答题的题干。在一些实施例中,确定待解答问题对应的答案包括:至少基于相应字符相似度,从多个候选知识文本中选择目标知识文本;以及从知识库中获取与目标知识文本相关联的答案文本作为待解答问题对应的答案。
图5示出了根据本公开的一些实施例的用于问答处理的装置500的示意性框图。装置500可以被包括在图1的计算设备110中或者被实现为计算设备110。
如图5所示,装置500包括语义相似度确定模块510,被配置为确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度,以及知识文本选择模块520,被配置为基于相应语义相似度,从知识库中选择多个候选知识文本。装置500还包括字符相似度确定模块530,被配置为确定问题文本所包括的字符与多个候选知识文本各自包括的字符之间的相应字符相似度。装置500还包括答案确定模块540,被配置为至少基于相应字符相似度来确定待解答问题对应的答案。
在一些实施例中,语义相似度确定模块510包括:基于模型的语义相似度确定模块,被配置为利用预先训练的机器学习模型来确定问题文本与知识库中的知识文本之间的相应语义相似度。
在一些实施例中,知识库中的知识文本由相应关键词索引。装置500还包括:关键词提取模块,被配置为从问题文本提取目标关键词;以及知识文本确定模块,被配置为基于目标关键词和知识库中索引到知识文本的关键词之间的匹配,从知识库中确定一组知识文本。在一些实施例中,语义相似度确定模块510包括:第一确定模块,被配置为确定问题文本与一组知识文本中的相应知识文本之间的相应语义相似度。
在一些实施例中,字符相似度确定模块530包括:编辑距离确定模块,被配置为确定问题文本所包括的字符与所选择的多个候选知识文本各自包括的字符之间的相应编辑距离;以及基于编辑距离的相似度确定模块,被配置为基于相应编辑距离来确定相应字符相似度。
在一些实施例中,答案确定模块540还包括:基于语义的答案确定模块,被配置为还基于问题文本与多个候选知识文本之间的语义相似度来确定待解答问题对应的答案。
在一些实施例中,待解答问题包括选择题,问题文本包括选择题的题干和多个备选项中的给定备选项。在一些实施例中,答案确定模块540包括:第一得分确定模块,被配置为至少基于相应字符相似度来确定指示给定备选项的正确性的给定选项得分;第二得分确定模块,被配置为确定多个备选项中的其他备选项的选项得分;以及选项确定模块,被配置为通过比较给定选项得分和其他备选项的选项得分来确定选择题的正确备选项。
在一些实施例中,第一得分确定模块还包括:基于语义的得分确定模块,被配置为基于相应字符相似度和相应语义相似度的加和来确定给定选项得分。
在一些实施例中,待解答问题包括问答题,问题文本包括问答题的题干。在一些实施例中,答案确定模块540包括:目标选择模块,被配置为至少基于相应字符相似度,从多个候选知识文本中选择目标知识文本;以及答案获取模块,被配置为从知识库中获取与目标知识文本相关联的答案文本作为待解答问题对应的答案。
图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备110,或者被包括在计算设备110中。
如图所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如方法400。例如,在一些实施例中,方法400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的方法400的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (14)

1.一种用于网页应用或移动终端应用的问答处理的方法,包括:
利用预先训练的机器学习模型,确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度;
基于所述相应语义相似度,从所述知识库中选择多个候选知识文本;
确定所述问题文本所包括的字符与所选择的所述多个候选知识文本各自包括的字符之间的相应编辑距离;
基于所述相应编辑距离,确定所述问题文本所包括的字符与所述多个候选知识文本各自包括的字符之间的相应字符相似度;以及
至少基于所述相应字符相似度来确定所述待解答问题对应的答案。
2.根据权利要求1所述的方法,其中所述知识库中的知识文本由相应关键词索引,所述方法还包括:
从所述问题文本提取目标关键词;以及
基于所述目标关键词和所述知识库中索引到所述知识文本的关键词之间的匹配,从所述知识库中确定一组知识文本,并且
其中确定所述相应语义相似度包括:
确定所述问题文本与所述一组知识文本中的相应知识文本之间的相应语义相似度。
3.根据权利要求1所述的方法,其中确定所述待解答问题对应的答案还包括:
还基于所述问题文本与所述多个候选知识文本之间的所述语义相似度来确定所述待解答问题对应的答案。
4.根据权利要求1所述的方法,其中所述待解答问题包括选择题,所述问题文本包括所述选择题的题干和多个备选项中的给定备选项,并且
其中确定所述待解答问题对应的答案包括:
至少基于所述相应字符相似度来确定指示所述给定备选项的正确性的给定选项得分;
确定所述多个备选项中的其他备选项的选项得分;以及
通过比较所述给定选项得分和所述其他备选项的所述选项得分来确定所述选择题的正确备选项。
5.根据权利要求4所述的方法,其中确定所述给定选项得分还包括:
基于所述相应字符相似度和所述相应语义相似度的加和来确定所述给定选项得分。
6.根据权利要求1至5中任一项所述的方法,其中所述待解答问题包括问答题,所述问题文本包括所述问答题的题干,并且
其中确定所述待解答问题对应的答案包括:
至少基于所述相应字符相似度,从所述多个候选知识文本中选择目标知识文本;以及
从所述知识库中获取与所述目标知识文本相关联的答案文本作为所述待解答问题对应的答案。
7.一种用于网页应用或移动终端应用的问答处理的装置,包括:
语义相似度确定模块,被配置为利用预先训练的机器学习模型来确定待解答问题对应的问题文本与知识库中的知识文本之间的相应语义相似度;
知识文本选择模块,被配置为基于所述相应语义相似度,从所述知识库中选择多个候选知识文本;
编辑距离确定模块,被配置为确定所述问题文本所包括的字符与所选择的所述多个候选知识文本各自包括的字符之间的相应编辑距离;
字符相似度确定模块,被配置为基于所述相应编辑距离来确定所述问题文本所包括的字符与所述多个候选知识文本各自包括的字符之间的相应字符相似度;以及
答案确定模块,被配置为至少基于所述相应字符相似度来确定所述待解答问题对应的答案。
8.根据权利要求7所述的装置,其中所述知识库中的知识文本由相应关键词索引,所述装置还包括:
关键词提取模块,被配置为从所述问题文本提取目标关键词;以及
知识文本确定模块,被配置为基于所述目标关键词和所述知识库中索引到所述知识文本的关键词之间的匹配,从所述知识库中确定一组知识文本,并且
其中所述语义相似度确定模块包括:
第一确定模块,被配置为确定所述问题文本与所述一组知识文本中的相应知识文本之间的相应语义相似度。
9.根据权利要求7所述的装置,其中所述答案确定模块还包括:
基于语义的答案确定模块,被配置为还基于所述问题文本与所述多个候选知识文本之间的所述语义相似度来确定所述待解答问题对应的答案。
10.根据权利要求7所述的装置,其中所述待解答问题包括选择题,所述问题文本包括所述选择题的题干和多个备选项中的给定备选项,并且
其中所述答案确定模块包括:
第一得分确定模块,被配置为至少基于所述相应字符相似度来确定指示所述给定备选项的正确性的给定选项得分;
第二得分确定模块,被配置为确定所述多个备选项中的其他备选项的选项得分;以及
选项确定模块,被配置为通过比较所述给定选项得分和所述其他备选项的所述选项得分来确定所述选择题的正确备选项。
11.根据权利要求10所述的装置,其中所述第一得分确定模块还包括:
基于语义的得分确定模块,被配置为基于所述相应字符相似度和所述相应语义相似度的加和来确定所述给定选项得分。
12.根据权利要求7至11中任一项所述的装置,其中所述待解答问题包括问答题,所述问题文本包括所述问答题的题干,并且
其中所述答案确定模块包括:
目标选择模块,被配置为至少基于所述相应字符相似度,从所述多个候选知识文本中选择目标知识文本;以及
答案获取模块,被配置为从所述知识库中获取与所述目标知识文本相关联的答案文本作为所述待解答问题对应的答案。
13.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN202010188703.7A 2020-03-17 2020-03-17 用于问答处理的方法、装置、设备和介质 Active CN111382255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010188703.7A CN111382255B (zh) 2020-03-17 2020-03-17 用于问答处理的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010188703.7A CN111382255B (zh) 2020-03-17 2020-03-17 用于问答处理的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111382255A CN111382255A (zh) 2020-07-07
CN111382255B true CN111382255B (zh) 2023-08-01

Family

ID=71220623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010188703.7A Active CN111382255B (zh) 2020-03-17 2020-03-17 用于问答处理的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111382255B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984983A (zh) * 2020-08-28 2020-11-24 山东健康医疗大数据有限公司 一种用户隐私加密的方法
CN112069815B (zh) * 2020-09-04 2023-01-17 平安科技(深圳)有限公司 成语填空题的答案选择方法、装置和计算机设备
CN114444505A (zh) * 2020-10-30 2022-05-06 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN112541052B (zh) * 2020-12-01 2023-11-03 北京百度网讯科技有限公司 确定问题的答案的方法、装置、设备及存储介质
CN112434152B (zh) * 2020-12-01 2022-10-14 北京大学 基于多通道卷积神经网络的教育类选择题解答方法和装置
CN112966492A (zh) * 2021-02-09 2021-06-15 柳州智视科技有限公司 利用已知知识解决问题的方法
CN112966513B (zh) * 2021-03-05 2023-08-01 北京百度网讯科技有限公司 用于实体链接的方法和装置
CN113326420B (zh) * 2021-06-15 2023-10-27 北京百度网讯科技有限公司 问题检索方法、装置、电子设备和介质
CN113961679A (zh) * 2021-09-18 2022-01-21 北京百度网讯科技有限公司 智能问答的处理方法、系统、电子设备及存储介质
CN114238611B (zh) * 2021-12-23 2023-05-16 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN117556920B (zh) * 2023-10-23 2024-05-31 星环信息科技(上海)股份有限公司 一种大模型幻觉治理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN108304451A (zh) * 2017-12-13 2018-07-20 中国科学院自动化研究所 多项选择题解答方法及装置
CN109857841A (zh) * 2018-12-05 2019-06-07 厦门快商通信息技术有限公司 一种faq问句文本相似度计算方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US8042053B2 (en) * 2007-09-24 2011-10-18 Microsoft Corporation Method for making digital documents browseable
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
US11275905B2 (en) * 2015-03-09 2022-03-15 Koninklijke Philips N.V. Systems and methods for semantic search and extraction of related concepts from clinical documents
CN105893349B (zh) * 2016-03-31 2019-06-04 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
US10331684B2 (en) * 2016-06-03 2019-06-25 International Business Machines Corporation Generating answer variants based on tables of a corpus
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN107436864B (zh) * 2017-08-04 2021-03-02 识因智能科技(北京)有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
US20190260694A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering
CN109740077B (zh) * 2018-12-29 2021-02-12 北京百度网讯科技有限公司 基于语义索引的答案搜索方法、装置及其相关设备
CN109829045A (zh) * 2018-12-30 2019-05-31 贝壳技术有限公司 一种问答方法和装置
CN109948143B (zh) * 2019-01-25 2023-04-07 网经科技(苏州)有限公司 社区问答系统的答案抽取方法
CN110377698B (zh) * 2019-06-20 2022-11-01 北京百度网讯科技有限公司 基于阅读理解的任务处理方法及装置、设备及可读介质
CN110543631B (zh) * 2019-08-23 2023-04-28 深思考人工智能科技(上海)有限公司 机器阅读理解的实现方法、装置、存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN108304451A (zh) * 2017-12-13 2018-07-20 中国科学院自动化研究所 多项选择题解答方法及装置
CN109857841A (zh) * 2018-12-05 2019-06-07 厦门快商通信息技术有限公司 一种faq问句文本相似度计算方法及系统

Also Published As

Publication number Publication date
CN111382255A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
US20210256390A1 (en) Computationally efficient neural network architecture search
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
CN110298019A (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
US20140358922A1 (en) Routing of Questions to Appropriately Trained Question and Answer System Pipelines Using Clustering
CN109033244B (zh) 搜索结果排序方法和装置
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN109325108B (zh) 查询处理方法、装置、服务器及存储介质
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
US11461613B2 (en) Method and apparatus for multi-document question answering
CN110728313B (zh) 一种用于意图分类识别的分类模型训练方法及装置
US20220230061A1 (en) Modality adaptive information retrieval
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
US20170140290A1 (en) Automated Similarity Comparison of Model Answers Versus Question Answering System Output
CN112069329B (zh) 文本语料的处理方法、装置、设备及存储介质
JP2023536773A (ja) テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN116127001A (zh) 敏感词检测方法、装置、计算机设备及存储介质
CN109885180B (zh) 纠错方法和装置、计算机可读介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN113535658A (zh) 一种文件预取方法、存储设备以及预取装置
CN110929501A (zh) 文本分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant