CN110188362A - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN110188362A
CN110188362A CN201910498182.2A CN201910498182A CN110188362A CN 110188362 A CN110188362 A CN 110188362A CN 201910498182 A CN201910498182 A CN 201910498182A CN 110188362 A CN110188362 A CN 110188362A
Authority
CN
China
Prior art keywords
field
vector
semantic
text
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910498182.2A
Other languages
English (en)
Other versions
CN110188362B (zh
Inventor
王泉
刘璟
佘俏俏
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910498182.2A priority Critical patent/CN110188362B/zh
Publication of CN110188362A publication Critical patent/CN110188362A/zh
Application granted granted Critical
Publication of CN110188362B publication Critical patent/CN110188362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出一种文本处理方法及装置。所述方法包括:获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落;根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。本发明实施例结合文本的文本语义表示和知识语义表示处理文本,能够综合利用多种语义表示来提高文本阅读理解的准确度,并提高答案查找和筛选的准确度。

Description

文本处理方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本处理方法及装置。
背景技术
机器阅读理解技术是指给定一个自然语言问题Q(Question)以及相应的文本段落P(Paragraph),利用机器学习的方法让模型预测出问题的答案A(Answer)。抽取式机器阅读理解要求答案A为来自段落P的一个连续片段。
近几年来,预训练的语言模型在机器阅读理解任务上取得了突破性进展。其核心思想是在大规模无监督文本语料上预训练语言模型,得到文本的语义表示。这些语义表示可以进一步以特征或微调的方式应用于包括机器阅读理解在内的一系列自然语言理解任务。
以BERT(Bidirectional Encoder Representations from Transformers,用于语义理解的深度双向预训练转换器)为代表的语言模型在处理机器阅读理解任务时仅仅用到了文本的语义表示。虽然这些语义表示是在大规模文本语料上预训练得到的,能够捕捉到一定的词法、句法、语义等语言规律,具备一定的语言理解能力,但并不足以支撑精准的机器阅读理解。类比于人类阅读理解的过程,实际中大量的机器阅读理解任务不仅需要复杂的语言理解,还依赖于丰富的背景知识。如何在预训练语言模型语言理解的基础上,有效地利用背景知识,进一步提升机器阅读理解模型效果,实现精准机器阅读理解,仍然是亟待研究解决的议题。
发明内容
本发明实施例提供一种文本处理方法及装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种文本处理方法,包括:
获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落;
根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。
在一种实施方式中,获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,包括:
对所述字段进行编码,获得各所述字段的文本语义表示向量;
根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示;
对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量。
在一种实施方式中,根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示,包括:
利用各所述字段的文本语义表示向量进行知识语义寻址,查找各所述字段对应的知识语义表示候选项;
根据设定的权重,从各所述字段的知识语义表示候选项中获得所述字段对应的知识语义表示。
在一种实施方式中,根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,包括:
将所述文本中每个语句的所述字段的文本语义表示向量和知识语义表示向量进行拼接,获得所述字段在对应语句中拼接后的向量;
根据所述拼接后的向量,获得所述字段在对应语句中的加权求和向量;
根据所述加权求和向量,预测答案片段的起始位置和结束位置。
在一种实施方式中,根据所述拼接后的向量,获得所述字段的加权求和向量,包括:
根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的字段相似度;
将获得的所述字段对应的所有相似度与所述目标文本中所有字段的简单拼接向量的乘积相加,获得所述加权求和向量。
在一种实施方式中,根据所述加权求和向量,预测答案片段的起始位置和结束位置,包括:
根据所述问题语句所有字段的加权求和向量,建立起点分类器和终点分类器;
利用所述起点分类器,获得所述答案段落中每个字段为答案起始位置的概率,利用所述终点分类器,获得所述答案段落中每个字段为答案结束位置的概率;
根据所述每个字段为答案起始位置的概率和所述每个字段为答案结束位置的概率,获得所述答案字段的起始位置和结束位置。
第二方面,本发明实施例提供一种文本处理装置,包括:
向量生成模块:用于获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落;
答案段落预测模块:用于根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。
在一种实施方式中,所述向量生成模块包括:
编码单元:用于对所述字段进行编码,获得各所述字段的文本语义表示向量;
知识语义表示查找单元:用于根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示;
知识语义表示单元:用于对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量。
在一种实施方式中,所述知识语义表示查找单元包括:
候选项查找子单元:用于利用各所述字段的文本语义表示向量进行知识语义寻址,查找各所述字段对应的知识语义表示候选项;
权重子单元:用于根据设定的权重,从各所述字段的知识语义表示候选项中获得所述字段对应的知识语义表示。
在一种实施方式中,所述答案段落预测模块包括:
拼接单元:用于将所述文本中每个语句的所述字段的文本语义表示向量和知识语义表示向量进行拼接,获得所述字段在对应语句中拼接后的向量;
加权求和单元:用于根据所述拼接后的向量,获得所述字段在对应语句中的加权求和向量;
预测单元:用于根据所述加权求和向量,预测答案片段的起始位置和结束位置。
在一种实施方式中,所述加权求和单元包括:
相似度计算子单元:用于根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的字段相似度;
输出子单元:用于将获得的所述字段对应的所有相似度与所述目标文本中所有字段的简单拼接向量的乘积相加,获得所述加权求和向量。
在一种实施方式中,所述预测单元包括:
分类器建立子单元:用于根据所述问题语句所有字段的加权求和向量,建立起点分类器和终点分类器;
分类子单元:用于利用所述起点分类器,获得所述答案段落中每个字段为答案起始位置的概率,利用所述终点分类器,获得所述答案段落中每个字段为答案结束位置的概率;
筛选子单元:用于根据所述每个字段为答案起始位置的概率和所述每个字段为答案结束位置的概率,获得所述答案字段的起始位置和结束位置。
第三方面,本发明实施例提供了一种文本处理设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行对应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述文本处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储文本处理装置所用的计算机软件指令,其包括用于执行上述文本处理方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例在处理文本时,结合文本的文本语义表示向量和知识语义表示向量,通过文本的语言含义和知识含义来理解文本。丰富了理解方式,使得理解更加精准。
上述技术方案中的另一个技术方案具有如下优点或有益效果:
文本语义表示能够表达文本的语言理解内容,知识语义表示能够表达文本的背景知识,因而能够在预训练语言模型语言理解的基础上,有效地利用背景知识,进一步提升机器阅读理解模型效果,综合利用多种语义表示来提高文本的理解程度和理解准确度,结合文本相关的背景知识和语言本身的内容准确获得问题的答案。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的文本处理方法的流程图。
图2示出根据本发明实施例的文本处理方法的流程图。
图3示出根据本发明实施例的文本处理方法的流程图。
图4示出根据本发明实施例的文本处理方法构建的文本处理模型示意图。
图5示出根据本发明实施例的文本处理装置的结构框图。
图6示出根据本发明实施例的文本处理装置的结构框图。
图7示出根据本发明实施例的文本处理装置的结构框图。
图8示出根据本发明实施例的文本处理设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的文本处理方法的流程图。如图1所示,该文本理解方法包括:
步骤S11:获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落。
步骤S12:根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。
在本发明实施例中,目标文本由问题语句和答案段落拼接而成。问题语句至少包含一个自然语句,例如,“他什么时候完成了人生中第一部作品?”在本发明实施例中,答案段落可以是与问题语句的答案相关的文字段落,包含与问题语句相关的答案信息。
在本发明实施例中,目标文本中各个字段,可以是目标文本中每个字,也可以是目标文本中具有一定文本语义的词。例如,对于语句:“他什么时候完成了人生中第一部作品?”,字段可以是:“他”、“什”、“么”、“时”、“候”、“完”、“成”、“了”、“人”、“生”、“中”、“第”、“一”、“部”、“作”、“品”。这种情况下,对于词组“什么”而言,将每个字单独拆开为“什”、“么”时,没有具体意义,可以对“什么”采用一个文本语义表示向量表示,“什”、“么”的文本语义表示向量,皆为“什么”的文本语义表示向量。再如,对于语句:“他什么时候完成了人生中第一部作品?”,字段可以是“他”、“什么”、“时候”、“完成了”、“人生中”、“第一”、“部”、“作品”。这种情况下,每个字段均有完整的文本语义。
在本发明实施例中,,所述文本语义表示向量为根据所述字段的语言含义获得的向量,所述知识语义表示向量为根据所述字段的背景知识获得的向量。一个字段的文本语义表示可以包括该字段在某种语言中的通用含义。例如,“什么”在汉语中为表示疑问的指代词。在本发明实施例中,一个字段的知识语义表示可以包括该字段在某种语言中的实体含义,有些字段在某种语言中可能没有具体语义,但是表达一定的专有名词例如人物、地名或国家名等。例如,中文中的“北大”、“俄罗斯”、“李白”等可以分别表示大学名、国家名和古代诗人。在实际应用场景中,有些文本中可能没有字段具有知识语义表示。例如,语句为:“他什么时候完成了人生中第一部作品?”,其中的各字段没有相应的知识语义表示。
为了较为准确地获取文本语义表示和知识语义表示,本发明实施例在大规模无结构文本语料上预训练文本语义表示,同时在大规模结构化知识图谱上预训练知识语义表示。
文本语义表示预训练和知识语义表示预训练均为现有的成熟技术。例如,可以采用BERT语言模型和BILINEAR(双直线)知识图谱表示模型为例,预训练得到文本语义表示和知识语义表示,然后根据文本语义表示得到文本语义表示向量,根据知识语义表示得到知识语义表示向量。此处列举的BERT模型和BILINEAR知识图谱表示模型仅为本发明的示例,文本和知识的语义表示预训练并不仅仅局限于BERT和BILINEAR模型,而是可以采用任何已有技术。
在本发明实施例中,答案片段可以包括组成答案的一个或多个字段。例如,问题语句为:“李白的字是什么?”,答案段落为“李白,字太白。”答案段落中的“太白”可以为答案片段。答案片段可以为答案段落的一部分。
本发明实施例在处理文本时,结合文本的文本语义表示向量和知识语义表示向量,通过文本的语言含义和知识含义来理解文本,能够提高文本的理解程度和理解准确度,能够综合利用多种语义表示来准确获得问题的答案。
图2示出根据本发明实施例的文本处理方法的流程图。本实施例中的步骤S12可以参见上述实施例中的相关描述,在此不再赘述。
与上述实施例的不同之处在于,如图2所示,获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,包括:
步骤S21:对所述字段进行编码,获得各所述字段的文本语义表示向量。
步骤S22:根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示。
步骤S23:对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量。
在本发明实施例中,首先根据百科等知识库,构建结构化的知识图谱。经过模型训练,文本处理模型能够根据文本从知识图谱中获取相应的知识语义表示。
在本发明实施例中,对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量,即根据知识语义表示进行编码,若某字段没有相应的知识语义表示,则无需获取知识语义表示向量。例如,某个字段的文本语义表示为A,知识语义表示为B,那么这个字段简单拼接的向量为AB。
在一种实施方式中,根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示,包括:
利用各所述字段的文本语义表示向量进行知识语义寻址,查找各所述字段对应的知识语义表示候选项;
根据设定的权重,从各所述字段的知识语义表示候选项中获得所述字段对应的知识语义表示。
在本发明实施例中,对于一个字段,可能存在多个知识语义表示。例如,“李白”的知识语义表示,可以是唐朝诗人,也可以是某个古诗名。为了从多个知识语义表示中较为准确地选择出与文本对应的知识语义表示,可以采用注意力机制,给查找出的知识语义表示以一定的权重,并根据权重选择与文本相适应的知识语义表示。
在本发明实施例中,知识语义表示与文本语义表示可以单独生成,知识语义表示也可以依赖文本的上下文进行筛选。
图3示出根据本发明实施例的文本处理方法的流程图。本实施例中的步骤S11可以参见上述实施例中的相关描述,在此不再赘述。
与上述实施例的不同之处在于,如图3所示,根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,包括:
步骤S31:将所述文本中每个语句的所述字段的文本语义表示向量和知识语义表示向量进行拼接,获得所述字段在对应语句中拼接后的向量。
步骤S32:根据所述拼接后的向量,获得所述字段在对应语句中的加权求和向量。
步骤S33:根据所述加权求和向量,预测答案片段的起始位置和结束位置。
在本发明实施例中,以字段为单位对各字段的表示向量进行简单拼接,可以得到拼接后的向量。例如,一个字段的文本语义表示为C,没有知识语义表示,知识语义表示向量为0,那么该字段的简单拼接的向量为C0。加权求和向量,与字段所在的语句有关,可以用于训练分类器,采用训练后的分类器在答案段落中查找问题的答案。加权求和向量深层融合了字段的文本语义表示和知识语义表示。在本发明实施例中可通过多层注意力机制实现文本语义表示和知识语义表示的融合,每层注意力机制包含实体之间的关系。将融合后的语义表示用于机器阅读理解任务,这样得到的语义表示不仅能捕捉复杂的语言规律,也蕴含了丰富的背景知识,有助于实现更加精准的机器阅读理解。
在一种实施方式中,根据所述拼接后的向量,获得所述字段的加权求和向量,包括:
根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的向量相似度;
将获得的所述字段对应的所有相似度与所述目标文本中所有字段的简单拼接向量的乘积相加,获得所述加权求和向量。
在本发明实施例中,加权求和向量为字段的文本语义表示向量和知识语义表示向量深层融合的向量,与语句中所有字段均有直接的联系。所述实体之间的关系,可以是语句中具有知识语义表示的字段的知识语义之间的关系,根据实体时间的关系构建加权求和向量,一般适用于语句中有两个以上知识语义表示的情况。例如“李白,字太白”,这个语句中,“李白”的知识语义表示和“太白”的知识语义表示之间的关系,即实体之间的关系。
在一种示例中,假设语句包含第一字段、第二字段、第三字段、第四字段、第五字段,第一字段具有相应的知识语义表示,其余字段均只有文本语义表示。第一至第五字段的文本语义表示向量和知识语义表示向量简单拼接获得的拼接后的向量分别用“A”、“B”、“C”、“D”、“E”表示。根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的向量相似度。在本示例中,“A”与“A”、“B”、“C”、“D”、“E”的相似度,依次记为:X1、X2、X3、X4、X5。A的加权求和向量可表示为:X1×A+X2×B+X3×C+X4×D+X5×E。类似的,语句中其它字段也有相应的加权求和向量。
在一种实施方式中,根据所述加权求和向量,预测答案片段的起始位置和结束位置,包括:
根据所述问题语句所有字段的加权求和向量,建立起点分类器和终点分类器;
利用所述起点分类器,获得所述答案段落中每个字段为答案起始位置的概率,利用所述终点分类器,获得所述答案段落中每个字段为答案结束位置的概率;
根据所述每个字段为答案起始位置的概率和所述每个字段为答案结束位置的概率,获得答案字段的起始位置和结束位置。
在本发明实施例中,每个字段均有该字段为起始位置的概率和该字段为结束位置的概率。一般情况下,分别选择起始位置概率最大的字段为起始位置,终止位置概率最大的字段为终止位置。然而实际操作中,还需要设置一些规则,例如,起始位置不得在终止位置之后等。起始位置和终止位置之间的片段即答案。例如,问题语句为:“李白的字是什么?”,答案段落为“李白,字太白。”根据分类器分类结果,判断字段“太”为起始位置,“白”为终止位置。得到问题的答案“太白”。
在本发明一种示例中,通过本发明实施例提供的文本处理方法构建一个模型,以文本为输入,答案概率为输出。模型如图4所示,包括:BERT编码层41、知识融合层42、自匹配层43和输出层44。
BERT编码层41以给定的问题Q和段落P为输入,采用BERT编码器对文本进行编码,输出相应的编码向量,即文本语义表示;
知识融合层42将预训练的知识语义表示存储于记忆网络,通过输入的文本语义表示寻址,再通过注意力机制自动筛选组合相关的知识语义表示,组合得到的知识语义表示和输入的文本语义表示拼接后作为该层的输出。在本发明示例中,注意力机制包含对知识语义表示赋予的权重,该权重可根据知识语义表示使用频率、与问题的相关程度等进行计算。仍然参照图4,在知识融合层42,将文本的前哨向量、字段的嵌入表示向量(Embedding)、BERT向量输入BILINEAR知识图谱表示模型45,将BILINEAR知识图谱表示模型45的输出结果采用归一化函数Softmax46进行归一化,最后将归一化的输出结果、文本的前哨向量和字段的嵌入表示向量进行求和,得到文本语义表示和知识语义表示拼接的向量。
自匹配层43以拼接的文本语义表示和知识语义表示为输入,通过两层自注意力机制实现文本和知识表示的深层融合。在本发明示例中,自注意力机制主要包括实体之间的关系,可以是语句中具有知识语义表示的字段的知识语义之间的关系。第一层自注意力机制包含实体之间的直接关系,即“李白”和“太白”之间的关系。第二层以上的自注意力机制包含实体之间的间接关系。例如根据知识图谱,A与B为夫妻、B与C为母女,那么在A于C之间产生间接关系。
输出层44即为最终的线性预测层,用来预测每个位置作为答案的起始位置的概率和结束位置的概率。图4中的圆形符号表示连接。
本发明实施例还提供一种文本处理装置。如5为本发明实施例的文本处理装置主要组成部分结构框图,包括:
向量生成模块51:用于获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落。
答案段落预测模块52:用于根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。
在一种实施方式中,参照图6,所述向量生成模块包括:
编码单元61:用于对所述字段进行编码,获得各所述字段的文本语义表示向量。
知识语义表示查找单元62:用于根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示。
知识语义表示单元63:用于对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量。
在一种实施方式中,所述知识语义表示查找单元包括:
候选项查找子单元:用于利用各所述字段的文本语义表示向量进行知识语义寻址,查找各所述字段对应的知识语义表示候选项;
权重子单元:用于根据设定的权重,从各所述字段的知识语义表示候选项中获得所述字段对应的知识语义表示。
在一种实施方式中,参照图7,所述答案段落预测模块包括:
拼接单元71:用于将所述文本中每个语句的所述字段的文本语义表示向量和知识语义表示向量进行拼接,获得所述字段在对应语句中拼接后的向量;
加权求和单元72:用于根据所述拼接后的向量,获得所述字段在对应语句中的加权求和向量;
预测单元73:用于根据所述加权求和向量,预测答案片段的起始位置和结束位置。
在一种实施方式中,所述加权求和单元包括:
相似度计算子单元:用于根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的字段相似度;
输出子单元:用于将获得的所述字段对应的所有相似度与所述目标文本中所有字段的简单拼接向量的乘积相加,获得所述加权求和向量。
在一种实施方式中,所述预测单元包括:
分类器建立子单元:用于根据所述问题语句所有字段的加权求和向量,建立起点分类器和终点分类器;
分类子单元:用于利用所述起点分类器,获得所述答案段落中每个字段为答案起始位置的概率,利用所述终点分类器,获得所述答案段落中每个字段为答案结束位置的概率;
筛选子单元:用于根据所述每个字段为答案起始位置的概率和所述每个字段为答案结束位置的概率,获得所述答案字段的起始位置和结束位置。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图8示出根据本发明实施例的文本处理设备的结构框图。如图8所示,该装置/设备/终端/服务器包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的文本处理方法。所述存储器910和处理器920的数量可以为一个或多个。
该设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落;
根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。
2.根据权利要求1所述的方法,其特征在于,获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,包括:
对所述字段进行编码,获得各所述字段的文本语义表示向量;
根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示;
对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量。
3.根据权利要求2所述的方法,其特征在于,根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示,包括:
利用各所述字段的文本语义表示向量进行知识语义寻址,查找各所述字段对应的知识语义表示候选项;
根据设定的权重,从各所述字段的知识语义表示候选项中获得所述字段对应的知识语义表示。
4.根据权利要求1所述的方法,其特征在于,根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,包括:
将所述文本中每个语句的所述字段的文本语义表示向量和知识语义表示向量进行拼接,获得所述字段在对应语句中拼接后的向量;
根据所述拼接后的向量,获得所述字段在对应语句中的加权求和向量;
根据所述加权求和向量,预测答案片段的起始位置和结束位置。
5.根据权利要求4所述的方法,其特征在于,根据所述拼接后的向量,获得所述字段的加权求和向量,包括:
根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的字段相似度;
将获得的所述字段对应的所有相似度与所述目标文本中所有字段的简单拼接向量的乘积相加,获得所述加权求和向量。
6.根据权利要求4所述的方法,其特征在于,根据所述加权求和向量,预测答案片段的起始位置和结束位置,包括:
根据所述问题语句所有字段的加权求和向量,建立起点分类器和终点分类器;
利用所述起点分类器,获得所述答案段落中每个字段为答案起始位置的概率,利用所述终点分类器,获得所述答案段落中每个字段为答案结束位置的概率;
根据所述每个字段为答案起始位置的概率和所述每个字段为答案结束位置的概率,获得所述答案字段的起始位置和结束位置。
7.一种文本处理装置,其特征在于,包括:
向量生成模块:用于获得目标文本中各个字段的文本语义表示向量和知识语义表示向量,所述目标文本包括问题语句和答案段落;
答案段落预测模块:用于根据各所述字段的文本语义表示向量和知识语义表示向量,预测与所述问题语句对应的答案片段的起始位置和结束位置,所述答案片段为所述答案段落中的至少部分文本。
8.根据权利要求7所述的装置,其特征在于,所述向量生成模块包括:
编码单元:用于对所述字段进行编码,获得各所述字段的文本语义表示向量;
知识语义表示查找单元:用于根据各所述字段的文本语义表示向量进行知识语义寻址,查找所述字段对应的知识语义表示;
知识语义表示单元:用于对各所述字段的知识语义表示进行编码,获得各所述字段的知识语义表示向量。
9.根据权利要求8所述的装置,其特征在于,所述知识语义表示查找单元包括:
候选项查找子单元:用于利用各所述字段的文本语义表示向量进行知识语义寻址,查找各所述字段对应的知识语义表示候选项;
权重子单元:用于根据设定的权重,从各所述字段的知识语义表示候选项中获得所述字段对应的知识语义表示。
10.根据权利要求7所述的装置,其特征在于,所述答案段落预测模块包括:
拼接单元:用于将所述文本中每个语句的所述字段的文本语义表示向量和知识语义表示向量进行拼接,获得所述字段在对应语句中拼接后的向量;
加权求和单元:用于根据所述拼接后的向量,获得所述字段在对应语句中的加权求和向量;
预测单元:用于根据所述加权求和向量,预测答案片段的起始位置和结束位置。
11.根据权利要求10所述的装置,其特征在于,所述加权求和单元包括:
相似度计算子单元:用于根据实体之间的关系、所述拼接后的向量,获得所述目标文本中所述字段与其所在的语句中所有字段的拼接后的字段相似度;
输出子单元:用于将获得的所述字段对应的所有相似度与所述目标文本中所有字段的简单拼接向量的乘积相加,获得所述加权求和向量。
12.根据权利要求10所述的装置,其特征在于,所述预测单元包括:
分类器建立子单元:用于根据所述问题语句所有字段的加权求和向量,建立起点分类器和终点分类器;
分类子单元:用于利用所述起点分类器,获得所述答案段落中每个字段为答案起始位置的概率,利用所述终点分类器,获得所述答案段落中每个字段为答案结束位置的概率;
筛选子单元:用于根据所述每个字段为答案起始位置的概率和所述每个字段为答案结束位置的概率,获得所述答案字段的起始位置和结束位置。
13.一种文本处理设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201910498182.2A 2019-06-10 2019-06-10 文本处理方法及装置 Active CN110188362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910498182.2A CN110188362B (zh) 2019-06-10 2019-06-10 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910498182.2A CN110188362B (zh) 2019-06-10 2019-06-10 文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN110188362A true CN110188362A (zh) 2019-08-30
CN110188362B CN110188362B (zh) 2021-04-20

Family

ID=67721104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910498182.2A Active CN110188362B (zh) 2019-06-10 2019-06-10 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN110188362B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909544A (zh) * 2019-11-20 2020-03-24 北京香侬慧语科技有限责任公司 一种数据处理方法和装置
CN110929015A (zh) * 2019-12-06 2020-03-27 北京金山数字娱乐科技有限公司 一种多文本分析方法及装置
CN111046158A (zh) * 2019-12-13 2020-04-21 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111191049A (zh) * 2020-01-03 2020-05-22 北京明略软件系统有限公司 信息推送方法、装置、计算机设备和存储介质
CN111666770A (zh) * 2020-06-02 2020-09-15 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111797822A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 文字对象评价方法、装置和电子设备
CN111858879A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN112101040A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112115250A (zh) * 2020-09-28 2020-12-22 四川长虹电器股份有限公司 一种问句自动生成方法及系统
CN112270198A (zh) * 2020-10-27 2021-01-26 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质
CN112507039A (zh) * 2020-12-15 2021-03-16 苏州元启创人工智能科技有限公司 基于外部知识嵌入的文本理解方法
CN112685548A (zh) * 2020-12-31 2021-04-20 中科讯飞互联(北京)信息科技有限公司 问题回答方法以及电子设备、存储装置
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法
CN114330718A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 因果关系的提取方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139955A1 (en) * 2015-11-16 2017-05-18 Adobe Systems Incorporated Converting a text sentence to a series of images
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109684449A (zh) * 2018-12-20 2019-04-26 电子科技大学 一种基于注意力机制的自然语言语义表征方法
CN109753661A (zh) * 2019-01-11 2019-05-14 国信优易数据有限公司 一种机器阅读理解方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139955A1 (en) * 2015-11-16 2017-05-18 Adobe Systems Incorporated Converting a text sentence to a series of images
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109684449A (zh) * 2018-12-20 2019-04-26 电子科技大学 一种基于注意力机制的自然语言语义表征方法
CN109753661A (zh) * 2019-01-11 2019-05-14 国信优易数据有限公司 一种机器阅读理解方法、装置、设备及存储介质

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909544A (zh) * 2019-11-20 2020-03-24 北京香侬慧语科技有限责任公司 一种数据处理方法和装置
CN110929015A (zh) * 2019-12-06 2020-03-27 北京金山数字娱乐科技有限公司 一种多文本分析方法及装置
CN110929015B (zh) * 2019-12-06 2024-04-02 北京金山数字娱乐科技有限公司 一种多文本分析方法及装置
CN111046158A (zh) * 2019-12-13 2020-04-21 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111191049A (zh) * 2020-01-03 2020-05-22 北京明略软件系统有限公司 信息推送方法、装置、计算机设备和存储介质
CN111191049B (zh) * 2020-01-03 2023-04-07 北京明略软件系统有限公司 信息推送方法、装置、计算机设备和存储介质
CN111666770A (zh) * 2020-06-02 2020-09-15 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111666770B (zh) * 2020-06-02 2023-07-18 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111858879A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111858879B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111797822A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 文字对象评价方法、装置和电子设备
CN111797822B (zh) * 2020-07-03 2024-01-23 北京字节跳动网络技术有限公司 文字对象评价方法、装置和电子设备
CN112101040A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112101040B (zh) * 2020-08-20 2024-03-29 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112115250A (zh) * 2020-09-28 2020-12-22 四川长虹电器股份有限公司 一种问句自动生成方法及系统
CN112270198A (zh) * 2020-10-27 2021-01-26 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质
CN112507039A (zh) * 2020-12-15 2021-03-16 苏州元启创人工智能科技有限公司 基于外部知识嵌入的文本理解方法
CN112685548B (zh) * 2020-12-31 2023-09-08 科大讯飞(北京)有限公司 问题回答方法以及电子设备、存储装置
CN112685548A (zh) * 2020-12-31 2021-04-20 中科讯飞互联(北京)信息科技有限公司 问题回答方法以及电子设备、存储装置
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法
CN114330718B (zh) * 2021-12-23 2023-03-24 北京百度网讯科技有限公司 因果关系的提取方法、装置及电子设备
CN114330718A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 因果关系的提取方法、装置及电子设备

Also Published As

Publication number Publication date
CN110188362B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN110188362A (zh) 文本处理方法及装置
CN111368514B (zh) 模型训练及古诗生成方法、古诗生成装置、设备和介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109376309A (zh) 基于语义标签的文档推荐方法和装置
CN110852106B (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN109657054A (zh) 摘要生成方法、装置、服务器及存储介质
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN110321537A (zh) 一种文案生成方法和装置
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN113553848B (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
CN108846138A (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
KR20200109914A (ko) 자연어 처리 시스템, 그 학습 방법 및 프로그램이 기록된 컴퓨터 판독가능한 기록매체
CN109635197A (zh) 搜索方法、装置、电子设备及存储介质
CN109828748A (zh) 代码命名方法、系统、计算机装置及计算机可读存储介质
CN107679225A (zh) 一种基于关键词的回复生成方法
CN112579870A (zh) 检索匹配模型的训练方法、装置、设备及存储介质
Karim et al. A step towards information extraction: Named entity recognition in Bangla using deep learning
Tang et al. De-identification of clinical text via Bi-LSTM-CRF with neural language models
Stemle et al. Using language learner data for metaphor detection
CN115393773A (zh) 基于非结构化知识嵌入的视频常识文本生成方法
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN110032645A (zh) 文本情感识别方法、系统、设备以及介质
CN111897955B (zh) 基于编解码的评语生成方法、装置、设备和存储介质
CN109359300A (zh) 基于深度学习的医学文献中关键词筛选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant