CN108052577B - 一种通用文本内容挖掘方法、装置、服务器及存储介质 - Google Patents

一种通用文本内容挖掘方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN108052577B
CN108052577B CN201711297664.9A CN201711297664A CN108052577B CN 108052577 B CN108052577 B CN 108052577B CN 201711297664 A CN201711297664 A CN 201711297664A CN 108052577 B CN108052577 B CN 108052577B
Authority
CN
China
Prior art keywords
target
answer
text
entity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711297664.9A
Other languages
English (en)
Other versions
CN108052577A (zh
Inventor
杨仁凯
王浩
李莹
张一麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711297664.9A priority Critical patent/CN108052577B/zh
Publication of CN108052577A publication Critical patent/CN108052577A/zh
Priority to US16/213,490 priority patent/US11062090B2/en
Application granted granted Critical
Publication of CN108052577B publication Critical patent/CN108052577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种通用文本内容挖掘方法、装置、服务器及存储介质。其中,该方法包括:获取包含目标实体以及目标特征的问题;将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。本发明实施例提供的技术方案,可以准确预测出答案在目标文本中的起始位置和结束位置,增加了答案识别准确率,同时,由于加入了知识库特征,可以提高从文本内容中抽取问题答案的准确性。

Description

一种通用文本内容挖掘方法、装置、服务器及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种通用文本内容挖掘方法、装置、服务器及存储介质。
背景技术
在信息时代,随着互联网技术发展,互联网上充斥着各种各样海量的内容信息。针对知识图谱中的实体(Subject,S)与其属性(Property,P)构成的问题(Subject+Property,SP),例如刘某某的妻子,如何从短文本中挖掘出用户想要的答案(Object,O),是目前迫切需要解决的问题之一。
目前,普遍采用如下两种答案挖掘技术来解决此问题。1)传统机器学习的方法,通过人工针对不同的问题构建不同的特征,抽取准确性较高,而且有些方法,虽然模型不通用,但是训练模型的方法是通用的;2)基于深度学习的通用解决方法,将大量的训练文本输入到神经网络中,经学习训练后可得到通用的解析模型,从而找到答案。
虽然上述两种方法都可以从文本中挖掘出答案,但是,其答案挖掘方法的效率都较低,且提供给用户问题答案的准确度也不高。
发明内容
本发明实施例提供一种通用文本内容挖掘方法、装置、服务器及存储介质,可以提高从文本中抽取问题答案的识别准确度。
第一方面,本发明实施例提供了一种通用文本内容挖掘方法,该方法包括:
获取包含目标实体以及目标特征的问题;
将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
第二方面,本发明实施例还提供了一种文本内容挖掘装置,该装置包括:
问题获取模块,用于获取包含目标实体以及目标特征的问题;
答案位置确定模块,用于将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任意所述的通用文本内容挖掘方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意所述的通用文本内容挖掘方法。
本发明实施例提供的通用文本内容挖掘方法、装置、服务器及存储介质,通过将获取的目标实体和目标特征的问题以及目标文本输入到预先构建的答案预测模型中,可以准确预测出答案在目标文本中的起始位置和结束位置,增加了答案识别准确率,同时,由于加入了知识库特征,可以提高从文本内容中抽取问题答案的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一中提供的一种通用文本内容挖掘方法的流程图;
图2是本发明实施例一中提供的一种答案预测模型的结构示意图;
图3是本发明实施例二中提供的一种通用文本内容挖掘方法的流程图;
图4是本发明实施例二中提供的一种问题识别模型的结构示意图;
图5是本发明实施例三中提供的一种通用文本内容挖掘方法的流程图;
图6是本发明实施例三中提供的一种答案约束模型的结构示意图;
图7是本发明实施例四中提供的一种通用文本内容挖掘方法的流程图;
图8是本发明实施例五中提供的一种通用文本内容挖掘装置的结构框图;
图9是本发明实施例六中提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1为本发明实施例一提供的一种通用文本内容挖掘方法的流程图,图2为本发明实施例一提供的一种答案预测模型的结构示意图。本实施例基于知识库特征和深度学习可用来在目标文本中挖掘用户给定的问题的答案的情况。该方法可以由本发明实施例提供的通用文本内容挖掘装置/服务器/计算机可读存储介质来执行,该装置/服务器/计算机可读存储介质可采用软件和/或硬件的方式实现。参见图1,该方法具体包括:
S110,获取包含目标实体以及目标特征的问题。
在本实施例中,获取用户提出的目标问题后,通过将目标问题与知识图谱中的实体进行匹配,将匹配到的实体作为目标实体,通过将目标问题与目标实体的属性进行匹配,将匹配到的属性特征作为目标特征。例如,目标问题刘某某的妻子中包含的目标实体是刘某某,目标特征是妻子。
S120,将目标实体、目标特征以及目标文本输入预先构建的答案预测模型中,通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置。
其中,答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
为了从文本内容中挖掘出答案,采用神经网络来抽取问题的答案,而神经网络模型可以包括输入层、中间层即隐藏层和输出层。其中,隐藏层根据模型训练的难易程度以及实际目标情况等因素一般有多层,其功能主要是增加神经网络的复杂性,以能够模拟复杂的非线性关系。神经网络模型训练过程是把大量的包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置输入到神经网络模型中进行训练,通过各样本训练之后,使得该模型慢慢具有了抽取能力。当把一个待确定问题答案所在位置的样本问题以及目标文本作为输入样本,输入到已经训练好的神经网络模型中,模型会结合该模型现有的参数,对输入样本,做出一个预测,并输出预测的结果。目标文本是指与查找的问题相关的短文或新闻等,可以是选自互联网产品中的文本。
需要说明的是,本实施例中答案预测模型是一种边界模型,通过输出答案在文本中的起始位置和结束位置来给出问题对应的答案所在的范围。传统的直接预测答案内容的预测模型,很依赖切词的准确性,如果切词不对,答案就无法找到。该边界模型相比于直接输出答案内容的预测模型的好处在于,边界模型只要预测首尾,而序列标注需要把答案的每一个位置都预测对;并且经实验验证,本实施例中的答案预测模型的准确率和效率均更好。
参见图2,答案预测模型依次可以包括输入层,双向LSTM(Long Short-TermMemory,长短期记忆模型)层、关注层、两层双向LSTM层和输出层,其中关注层用于将问题与目标文本进行双向匹配。LSTM是一种特殊的RNN(Recurrent Neural Network,循环神经网络)模型,是为了解决RNN模型梯度弥散的问题而提出的;能够压缩输入向量表示并预测输出。
为了得到更加准确的答案,本实施例的答案预测模型中引入了关注层,该关注层中的SP2Context表示用问题匹配文本,ContextSP2表示用文本匹配问题,可以实现问题与目标文本的双向匹配。具体的,输入到关注层中的向量经模型训练后输出两个结果,图中的1表示SP2Context经训练后的输出,2表示ContextSP2经训练后的输出,从而增加了答案的准确性。同时,采用两层双向LSTM层,使得最后输出层输出两个结果,预先预测出输出1即答案在文本中的起始位置,再预测出输出2即答案在文本中的结束位置,可预测出问题的答案。
由于神经网络模型都是对向量进行训练的,所以为了确定问题的答案在目标文本中的起始位置和结束位置,首先需对输入的目标文本进行切词操作,切分为每一个词(Word,W),将每一个词对应的词向量、目标实体对应的向量以及目标特征对应的向量输入到答案预测模型中,经过该模型训练,可以预测出答案的起始位置和结束位置。
本发明实施例提供的通用文本内容挖掘方法,通过将获取的目标实体和目标特征的问题以及目标文本输入到预先构建的答案预测模型中,即可准确预测出答案在目标文本中的起始位置和结束位置,增加了答案识别准确率,同时,由于加入了知识库特征,可以增加从文本内容中抽取问题答案的准确性。
实施例二
图3为本发明实施例二提供的一种通用文本内容挖掘方法流程图,图4为本发明实施例二提供的一种问题识别模型的结构示意图。该通用文本内容挖掘方法以本发明实施例一为基础,为使得文本挖掘的准确性高,进一步的在获取包含目标实体以及目标特征的问题之后,增加了问题识别步骤。结合图3和图4,该方法包括:
S210,获取包含目标实体以及目标特征的问题。
S220,将目标实体与目标特征作为问题识别模型的输入,通过问题识别模型将目标实体的词向量,依据知识库确定的目标实体的类型,以及依据知识库确定的目标实体的候选特征与目标特征进行比较,并依据比较结果确定目标实体与目标特征是否关联。若不关联,则执行步骤S230;若关联,则执行步骤S240。
现有的从文本中挖掘答案的方法只需要提供问题,即会给出问题的答案,但是对于一些不合适的问题,譬如刘某某+面积,也会进行预测,造成挖掘的效率低下。因此,为了提高答案识别的效率,首先需要保证目标实体与目标特征构成的问题是准确的。本实施构建了问题识别模型,在对问题的答案做出预测之前,先通过问题识别模型验证目标实体与目标特征的组合是否合适。
具体的,把大量的正样本和负样本输入到神经网络模型中进行训练,最小化正确特征的距离,最大化错误特征的距离,通过对各样本训练优化,使得该模型慢慢具有了判断能力。当把一个待确定实体与特征关联结果的实体和特征作为输入样本,输入到已经训练好的神经网络模型中,模型会结合该模型现有的参数,对输入样本,做出一个判断,并输出判断的结果。其中,正样本可以是将实体的某个属性作为预测属性,负样本可以是从整个属性集合中随机查找一个不属于这一类实体的属性作为预测属性。
本实施例构建的问题识别模型如图4所示,其中,目标实体的类型/标签(tag)即目标实体属于哪一类,知识库中包含有很多类型/标签,例如,可以包含有人物、娱乐等。具体的,可以是:当实体是刘某某时,对应的类型/标签可以是"艺人"、"音乐人物"、"娱乐人物"、"歌手"、"男歌手"、"制作人"、"演员"、"音乐人"或"文化人物"等,即同一实体可对应的不同类型/标签。
当目标实体的类型/标签确定后,比如目标实体刘某某的类型是歌手,此时的候选特征即为对应于歌手所具有的全部属性。例如,候选特征中可以包含有["出生时间","经纪公司","信仰","代表作品","毕业院校","别名","中文名","出生地","职业","妻子","生肖","民族","全球粉丝会","外文名","主要成就","星座","女儿","血型","国籍","身高","体重","语言","类别","籍贯","婚姻状况","英文名","年龄","发行时间","宗教信仰","父亲","学历"]。当目标实体成龙的类型是演员,此时的候选特征即为对应于演员所具有的全部属性,可以包含[“代表作品”“电影作品”“电视剧作品”]等。即不同实体可对应的不同类型/标签,不同类型的类型/标签可对应不同的属性。
例如,当把目标实体刘某某和目标特征《无间道》输入到问题识别模型后,该问题识别模型首先把目标实体刘某某转化为对应的词向量,并根据知识库中的实体关系确定目标实体刘某某对应的类型,如演员以及目标实体刘某某的所有属性即特征,然后经模型进行相关处理融合后,与给定的目标特征《无间道》进行比较,可得到目标实体刘某某和目标特征《无间道》有关系。
当把目标实体刘某某和目标特征面积输入到问题识别模型后,该问题识别模型首先把目标实体刘某某转化为对应的词向量,并根据知识库中的实体关系确定目标实体刘某某对应的类型,如演员以及目标实体刘某某的所有属性即特征,然后经模型进行相关处理融合后,与给定的目标特征面积进行比较,可得到目标实体刘某某和目标特征面积无关系。
S230,停止操作。
当问题识别模型的输出结果为不关联时,停止对该问题的答案的预测,并提醒用户该问题本身不正确,如通用文本内容挖掘装置中可设置有显示模块,该模块可由显示屏、麦克风等设备集成,可通过显示文字或播报语音等方式告知用户需改正问题,或问题不正确等。
若问题识别模型验证目标实体与目标特征的组合关联,则执行后续预测答案的步骤S240。
S240,将目标实体、目标特征以及目标文本输入预先构建的答案预测模型中,通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置。
其中,答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
本发明实施例提供的通用文本内容挖掘方法,在确定问题的答案之前,引入了问题识别模型,过滤掉了杂质问题,即目标实体与目标特征不关联的问题,然后再通过构建的答案预测模型确定答案在目标文本中的起始位置和结束位置,增加了答案识别的准确率,同时提高了从文本内容中抽取问题答案的准确性。
实施例三
图5为本发明实施例三提供的一种通用文本内容挖掘方法流程图,图6为本发明实施例三提供的一种答案约束模型的结构示意图。该通用文本内容挖掘方法以本发明上述实施例为基础,为使得文本挖掘的准确性高,进一步的在通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置之后,增加了问题判别步骤。结合图5和图6,该方法包括:
S310,获取包含目标实体以及目标特征的问题。
S320,将目标实体、目标特征以及目标文本输入预先构建的答案预测模型中,通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置。
其中,答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
S330,依据答案在目标文本中的起始位置和结束位置确定答案内容。
虽然依据构建的答案预测模型可确定答案在目标文本中的起始位置和结束位置,但是在一些实际情况中,会出现抽取出的答案与用户想要的答案不符的情况,例如:刘某某+出生时间,用户想要获取刘某某的出生日期,而从句子刘某某1961年9月27日出生于中国香港新界,抽取出的是中国香港新界,而不是用户想要获取的。因此,为了保证后续抽取结果的准确性,本实施例根据特征的已有答案构建了答案约束模型,对抽取出的答案进一步的限定。其中,首先,需要依据答案在目标文本中的起始位置和结束位置确定问题答案的内容。
S340,将答案内容和目标特征作为预设构建的答案约束模型,通过答案约束模型确定答案内容与目标特征之间是否关联。若不关联,则执行步骤S350;若关联,则执行步骤S360。
具体的,答案约束模型如图6所示,将答案内容切分为每一个词,将每一个词对应的词向量以及目标特征输入到答案预测模型中进行训练,当答案约束模型的输出结果为不关联时,将该答案的内容删除,即执行步骤S350,并提醒用户该答案的内容不正确,如通用文本内容挖掘装置中可设置有显示模块,该模块可由显示屏、麦克风等设备集成,可通过显示文字或播报语音等方式告知该问题对应的答案的内容不正确等。若关联,则通过显示模块显示该答案的内容。
S350,剔除答案内容。
S360,展示答案内容。
本发明实施例提供的通用文本内容挖掘方法,在通过构建的答案预测模型确定答案在目标文本中的起始位置和结束位置之后,引入了答案约束模型,验证由目标文本中的起始位置和结束位置确定答案内容是否与目标特征关联,若不关联,则将该答案内容剔除,提高了从文本内容中抽取问题答案的准确性。
实施例四
图7为本发明实施例四提供的一种通用文本内容挖掘方法的流程图。本发明实施例四为在上述实施例的基础上,提供的一种优选实例。具体的,参见图7,该方法包括:
S401,获取包含目标实体以及目标特征的问题。
S402,将目标实体与目标特征作为问题识别模型的输入,通过问题识别模型将目标实体的词向量,依据知识库确定的目标实体的类型,以及依据知识库确定的目标实体的候选特征与目标特征进行比较。
S403,依据比较结果确定目标实体与目标特征是否关联。若不关联,则执行步骤S404;若关联,则执行步骤S405。
S404,停止操作。
S405,将目标实体、目标特征以及目标文本输入预先构建的答案预测模型中,通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置。
其中答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
S406,依据答案在目标文本中的起始位置和结束位置确定答案内容。
S407,将答案内容和目标特征作为预设构建的答案约束模型。
S408,通过答案约束模型确定答案内容与目标特征之间是否关联。若不关联,则执行步骤S409;若关联,则执行步骤S410。
S409,剔除答案内容。
S410,展示答案内容。
本发明实施例提供的通用文本内容挖掘方法,在确定问题的答案之前,引入了问题识别模型,过滤掉了杂质问题,即目标实体与目标特征不关联的问题,然后通过构建的答案预测模型确定答案在目标文本中的起始位置和结束,在此之后,引入了答案约束模型,验证由目标文本中的起始位置和结束位置确定答案内容是否与目标特征关联,若不关联,则将该答案内容剔除,增加了答案识别的准确率,同时由于加入了知识库特征,进一步提高了从文本内容中抽取问题答案的准确性。
实施例五
图8为本发明实施例五提供的一种通用文本内容挖掘装置的结构框图,该装置可执行本发明任意实施例所提供的通用文本内容挖掘方法,具备执行方法相应的功能模块和有益效果。如图8所示,该装置可以包括:
问题获取模块510,用于获取包含目标实体以及目标特征的问题;
答案位置确定模块520,用于将目标实体、目标特征以及目标文本输入预先构建的答案预测模型中,通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置,其中答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的。
本发明实施例提供的通用文本内容挖掘装置,通过将获取的目标实体和目标特征的问题以及目标文本输入到构建的答案预测模型中,可以准确预测出答案在目标文本中的起始位置和结束位置,增加了答案识别的准确率,同时,由于加入了知识库特征,可以提高从文本内容中抽取问题答案的准确性。
进一步地,上述装置还可以包括:
实体特征比较模块,用于在获取包含目标实体以及目标特征的问题之后,将目标实体与目标特征作为问题识别模型的输入,通过问题识别模型将目标实体的词向量,依据知识库确定的目标实体的类型,以及依据知识库确定的目标实体的候选特征与目标特征进行比较,并依据比较结果确定目标实体与目标特征是否关联;若不关联,则停止操作。
可选的,答案预测模型依次可以包括输入层、双向LSTM层、关注层、两层双向LSTM层和输出层,其中关注层用于将问题与目标文本进行双向匹配。
示例性的,上述装置还可以包括:
答案内容确定模块,用于通过答案预测模型确定问题的答案在目标文本中的起始位置和结束位置之后,依据答案在目标文本中的起始位置和结束位置确定答案内容;
内容特征关联确定模块,用于将答案内容和目标特征作为预设构建的答案约束模型,通过答案约束模型确定答案内容与目标特征之间是否关联;若不关联,则剔除答案内容。
实施例六
图9为本发明实施例六提供的一种服务器的结构示意图。图9示出了适于用来实现本发明实施方式的示例性服务器12的框图。图9显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,该服务器12以通用计算设备的形式表现。该服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的通用文本内容挖掘方法。
实施例七
本发明实施例七还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例中任意的通用文本内容挖掘方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种通用文本内容挖掘方法,其特征在于,包括:
获取包含目标实体以及目标特征的目标问题;其中,所述目标实体为所述目标问题在知识图谱中匹配到的实体;所述目标特征为所述目标实体在所述知识图谱中匹配到的属性;
将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定目标问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的,所述答案预测模型为边界模型;
其中,获取包含目标实体以及目标特征的目标问题之后,还包括:
将所述目标实体与所述目标特征作为问题识别模型的输入,通过所述问题识别模型将所述目标实体的词向量,依据知识库确定的所述目标实体的类型,以及依据知识库确定的所述目标实体的候选特征与所述目标特征进行比较,并依据比较结果确定所述目标实体与所述目标特征是否关联;
若不关联,则停止操作。
2.根据权利要求1所述的方法,其特征在于,所述答案预测模型依次包括输入层,双向LSTM层、关注层、两层双向LSTM层和输出层,其中所述关注层用于将问题与目标文本进行双向匹配。
3.根据权利要求1所述的方法,其特征在于,通过所述答案预测模型确定目标问题的答案在所述目标文本中的起始位置和结束位置之后,还包括:
依据答案在所述目标文本中的起始位置和结束位置确定答案内容;
将所述答案内容和所述目标特征作为预设构建的答案约束模型,通过所述答案约束模型确定所述答案内容与所述目标特征之间是否关联;
若不关联,则剔除答案内容。
4.一种通用文本内容挖掘装置,其特征在于,包括:
问题获取模块,用于获取包含目标实体以及目标特征的目标问题;其中,所述目标实体为所述目标问题在知识图谱中匹配到的实体;所述目标特征为所述目标实体在所述知识图谱中匹配到的属性;
实体特征比较模块,用于在获取包含目标实体以及目标特征的目标问题之后,将所述目标实体与所述目标特征作为问题识别模型的输入,通过所述问题识别模型将所述目标实体的词向量,依据知识库确定的所述目标实体的类型,以及依据知识库确定的所述目标实体的候选特征与所述目标特征进行比较,并依据比较结果确定所述目标实体与所述目标特征是否关联;若不关联,则停止操作;
答案位置确定模块,用于将所述目标实体、所述目标特征以及目标文本输入预先构建的答案预测模型中,通过所述答案预测模型确定目标问题的答案在所述目标文本中的起始位置和结束位置,其中所述答案预测模型是预先依据包含样本实体和样本特征的样本问题以及样本答案在文本中的起始位置和结束位置训练得到的,所述答案预测模型为边界模型。
5.根据权利要求4所述的装置,其特征在于,所述答案预测模型依次包括输入层,双向LSTM层、关注层、两层双向LSTM层和输出层,其中所述关注层用于将问题与目标文本进行双向匹配。
6.根据权利要求4所述的装置,其特征在于,还包括:
答案内容确定模块,用于通过所述答案预测模型确定目标问题的答案在所述目标文本中的起始位置和结束位置之后,依据答案在所述目标文本中的起始位置和结束位置确定答案内容;
内容特征关联确定模块,用于将所述答案内容和所述目标特征作为预设构建的答案约束模型,通过所述答案约束模型确定所述答案内容与所述目标特征之间是否关联;若不关联,则剔除答案内容。
7.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的通用文本内容挖掘方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的通用文本内容挖掘方法。
CN201711297664.9A 2017-12-08 2017-12-08 一种通用文本内容挖掘方法、装置、服务器及存储介质 Active CN108052577B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711297664.9A CN108052577B (zh) 2017-12-08 2017-12-08 一种通用文本内容挖掘方法、装置、服务器及存储介质
US16/213,490 US11062090B2 (en) 2017-12-08 2018-12-07 Method and apparatus for mining general text content, server, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711297664.9A CN108052577B (zh) 2017-12-08 2017-12-08 一种通用文本内容挖掘方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN108052577A CN108052577A (zh) 2018-05-18
CN108052577B true CN108052577B (zh) 2022-06-14

Family

ID=62123188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711297664.9A Active CN108052577B (zh) 2017-12-08 2017-12-08 一种通用文本内容挖掘方法、装置、服务器及存储介质

Country Status (2)

Country Link
US (1) US11062090B2 (zh)
CN (1) CN108052577B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959396B (zh) * 2018-06-04 2021-08-17 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN111190997B (zh) * 2018-10-26 2024-01-05 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111382234A (zh) * 2018-12-11 2020-07-07 航天信息股份有限公司 一种基于客服的答复提供方法及装置
CN110059152A (zh) * 2018-12-25 2019-07-26 阿里巴巴集团控股有限公司 一种文本信息预测模型的训练方法、装置及设备
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
CN109815325B (zh) * 2019-01-18 2021-12-10 北京百度网讯科技有限公司 答案抽取方法、装置、服务器及存储介质
CN110046234B (zh) * 2019-02-12 2023-03-14 创新先进技术有限公司 问答模型优化方法及装置、问答机器人系统
CN110222152B (zh) * 2019-05-29 2021-05-14 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
US11263400B2 (en) * 2019-07-05 2022-03-01 Google Llc Identifying entity attribute relations
CN110750998B (zh) * 2019-10-14 2023-10-31 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN111046184B (zh) * 2019-12-12 2024-04-12 深圳市铭数信息有限公司 文本的风险识别方法、装置、服务器和存储介质
CN111143454B (zh) * 2019-12-26 2021-08-03 腾讯科技(深圳)有限公司 一种文本输出方法、装置及可读存储介质
CN111428005A (zh) * 2020-04-12 2020-07-17 中信银行股份有限公司 标准问答对确定方法、装置及电子设备
CN111666418B (zh) * 2020-04-23 2024-01-16 北京三快在线科技有限公司 文本重生成方法、装置、电子设备和计算机可读介质
CN111626055B (zh) * 2020-05-25 2023-06-09 泰康保险集团股份有限公司 文本处理方法及装置、计算机存储介质、电子设备
CN111768007B (zh) * 2020-06-28 2023-08-08 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN111784048B (zh) * 2020-06-30 2024-05-31 科大讯飞股份有限公司 试题难度预测方法、装置、电子设备和存储介质
CN112131364B (zh) * 2020-09-22 2024-03-26 沈阳东软智能医疗科技研究院有限公司 问答方法、装置、电子设备和存储介质
CN112052680B (zh) * 2020-10-14 2023-01-10 腾讯科技(深圳)有限公司 问题生成方法、装置、设备及存储介质
CN112541362B (zh) * 2020-12-08 2022-08-23 北京百度网讯科技有限公司 一种泛化处理的方法、装置、设备和计算机存储介质
CN112685548B (zh) * 2020-12-31 2023-09-08 科大讯飞(北京)有限公司 问题回答方法以及电子设备、存储装置
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113656607A (zh) * 2021-08-19 2021-11-16 郑州轻工业大学 一种文本挖掘装置及储存介质
CN113992973B (zh) * 2021-09-22 2024-06-11 阿里巴巴达摩院(杭州)科技有限公司 视频摘要生成方法、装置、电子设备和存储介质
CN114840648A (zh) * 2022-03-21 2022-08-02 阿里巴巴(中国)有限公司 答案生成方法、装置及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
CN106156035A (zh) * 2015-02-28 2016-11-23 南京网感至察信息科技有限公司 一种通用文本挖掘方法和系统
CN106991161A (zh) * 2017-03-31 2017-07-28 北京字节跳动科技有限公司 一种自动生成开放式问题答案的方法
CN107291822A (zh) * 2017-05-24 2017-10-24 北京邮电大学 基于深度学习的问题分类模型训练方法、分类方法及装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080244375A1 (en) * 2007-02-09 2008-10-02 Healthline Networks, Inc. Hyperlinking Text in Document Content Using Multiple Concept-Based Indexes Created Over a Structured Taxonomy
US9171079B2 (en) * 2011-01-28 2015-10-27 Cisco Technology, Inc. Searching sensor data
US10445371B2 (en) * 2011-06-23 2019-10-15 FullContact, Inc. Relationship graph
US9383895B1 (en) * 2012-05-05 2016-07-05 F. Vinayak Methods and systems for interactively producing shapes in three-dimensional space
CA2779349C (en) * 2012-06-06 2019-05-07 Ibm Canada Limited - Ibm Canada Limitee Predictive analysis by example
US20150317449A1 (en) * 2013-01-24 2015-11-05 Kantrack Llc Medication Delivery System
US9940361B2 (en) * 2013-03-15 2018-04-10 Unitedhealth Group Incorporated Intelligent presence server systems and methods
EP3079077A4 (en) * 2013-12-30 2016-12-28 Huawei Tech Co Ltd METHOD AND DEVICE FOR QUERYING GRAPHICAL DATA
US10671619B2 (en) * 2015-02-25 2020-06-02 Hitachi, Ltd. Information processing system and information processing method
US9680583B2 (en) * 2015-03-30 2017-06-13 The Nielsen Company (Us), Llc Methods and apparatus to report reference media data to multiple data collection facilities
US20170032052A1 (en) * 2015-07-29 2017-02-02 Oracle International Corporation Graph data processing system that supports automatic data model conversion from resource description framework to property graph
US10474962B2 (en) * 2015-09-04 2019-11-12 Microsoft Technology Licensing, Llc Semantic entity relation detection classifier training
US10606846B2 (en) * 2015-10-16 2020-03-31 Baidu Usa Llc Systems and methods for human inspired simple question answering (HISQA)
CN105868261A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 一种关联信息的获取与排序方法和系统
AU2017200378A1 (en) * 2016-01-21 2017-08-10 Accenture Global Solutions Limited Processing data for use in a cognitive insights platform
CN105701253B (zh) * 2016-03-04 2019-03-26 南京大学 中文自然语言问句语义化的知识库自动问答方法
US20170270421A1 (en) * 2016-03-15 2017-09-21 Palantir Technologies Inc. Computing a quality ranking of a subject
CN106095753B (zh) * 2016-06-07 2018-11-06 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106777274B (zh) * 2016-06-16 2018-05-29 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
US10599997B2 (en) * 2016-08-11 2020-03-24 International Business Machines Corporation System and method for ground truth evaluation
US10536579B2 (en) * 2016-10-24 2020-01-14 Sriram Venkataramanan Iyer System, method and marketplace for real-time interactive video/voice services using artificial intelligence
CN110192252A (zh) * 2016-11-14 2019-08-30 科格诺亚公司 用于评估发育状况并提供覆盖度和可靠性控制的方法和装置
CN106776564B (zh) * 2016-12-21 2020-04-24 张永成 一种基于知识图谱的语义识别方法及系统
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods
US20180341686A1 (en) * 2017-05-26 2018-11-29 Nanfang Hu System and method for data search based on top-to-bottom similarity analysis
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156035A (zh) * 2015-02-28 2016-11-23 南京网感至察信息科技有限公司 一种通用文本挖掘方法和系统
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
CN106991161A (zh) * 2017-03-31 2017-07-28 北京字节跳动科技有限公司 一种自动生成开放式问题答案的方法
CN107291822A (zh) * 2017-05-24 2017-10-24 北京邮电大学 基于深度学习的问题分类模型训练方法、分类方法及装置

Also Published As

Publication number Publication date
US11062090B2 (en) 2021-07-13
CN108052577A (zh) 2018-05-18
US20190220516A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
CN109034069B (zh) 用于生成信息的方法和装置
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
CN107908641B (zh) 一种获取图片标注数据的方法和系统
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
CN107909088B (zh) 获取训练样本的方法、装置、设备和计算机存储介质
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
CN111475627B (zh) 解答推导题目的检查方法、装置、电子设备及存储介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
CN110737824B (zh) 内容查询方法和装置
CN111144102A (zh) 用于识别语句中实体的方法、装置和电子设备
CN116188250A (zh) 图像处理方法、装置、电子设备及存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN113011169B (zh) 一种会议纪要的处理方法、装置、设备及介质
CN111125550A (zh) 兴趣点分类方法、装置、设备及存储介质
CN110362688B (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant