CN111046656B - 文本处理方法、装置、电子设备及可读存储介质 - Google Patents
文本处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111046656B CN111046656B CN201911121910.4A CN201911121910A CN111046656B CN 111046656 B CN111046656 B CN 111046656B CN 201911121910 A CN201911121910 A CN 201911121910A CN 111046656 B CN111046656 B CN 111046656B
- Authority
- CN
- China
- Prior art keywords
- trained
- sentence
- entity
- word segmentation
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例提供了一种文本处理方法、装置、电子设备及可读存储介质,所述方法包括:对待识别语句进行分词处理,得到第一分词序列;根据所述第一分词序列,生成第一向量;将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。本公开实施例可以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。
Description
技术领域
本公开的实施例涉及计算机技术领域,尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。
背景技术
随着互联网信息技术的飞速发展,互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。
实体关系抽取作为信息抽取的重要组成部分,其目的在于从自然语言文本挖掘出实体间的语义关联,例如,识别句子中的施事实体和受事实体。不仅有助于领域本体的建立,促进知识图谱的构建,而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的意图,从而在闲聊对话系统、人机交互系统、以及搜索系统等多个应用领域,可以为用户提供更加精准的服务,提高用户体验。
然而,目前在实体关系抽取过程中,需要对文本的句法进行分析,并且人工标注句子中的各个成分,以及确定句子中各成分之间的关系。其中,人工标注专业要求程度较高,不仅导致实体关系抽取的成本较高,而且句法分析过程中的细微错误都会导致最终的抽取结果出错。因此,目前的实体关系抽取方式不仅准确率较低而且成本较高。
发明内容
本公开的实施例提供一种文本处理方法、装置、电子设备及可读存储介质,用以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。
根据本公开的实施例的第一方面,提供了一种文本处理方法,所述方法包括:
对待识别语句进行分词处理,得到第一分词序列;
根据所述第一分词序列,生成第一向量;
将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
根据本公开的实施例的第二方面,提供了一种模型训练方法,所述方法包括:
获取待训练语句;
对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
对所述待训练语句进行分词处理,得到第二分词序列;
根据所述第二分词序列,生成第二向量;
根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。
根据本公开的实施例的第三方面,提供了一种文本处理装置,所述装置包括:
第一分词模块,用于对待识别语句进行分词处理,得到第一分词序列;
第一转换模块,用于根据所述第一分词序列,生成第一向量;
关系识别模块,用于将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
根据本公开的实施例的第四方面,提供了一种模型训练装置,所述装置包括:
获取模块,用于获取待训练语句;
标注模块,用于对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
分词模块,用于对所述待训练语句进行分词处理,得到第二分词序列;
生成模块,用于根据所述第二分词序列,生成第二向量;
训练模块,用于根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。
根据本公开的实施例的第五方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述文本处理方法。
根据本公开的实施例的第六方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述文本处理方法。
本公开的实施例提供了一种文本处理方法、装置、电子设备及可读存储介质,所述方法包括:
对待识别语句进行分词处理,得到第一分词序列;
根据所述第一分词序列,生成第一向量;
将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
通过本公开实施例,无需对句子中的每一个分词进行语义分析以及人工标注,只需要以句子为单位,对待训练语句进行标注,得到用于表示所述待训练语句中施事实体和受事实体的顺序关系的标注样本,进而训练得到用于输出待识别语句中施事实体和受事实体的顺序关系的深度神经网络模型,不仅可以降低识别成本,而且根据该深度神经网络模型的输出结果,即可确定句子的主动关系或者被动关系,进而可以提高识别施事实体和受事实体的准确率和效率。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的一个实施例中的文本处理方法的步骤流程图;
图2示出了本公开的一个实施例中的模型训练方法的步骤流程图;
图3示出了在本公开的一个实施例中的文本处理装置的结构图;
图4示出了在本公开的一个实施例中的模型训练装置的结构图;
图5示出了本公开的一个实施例提供的电子设备的结构图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,其示出了本公开的一个实施例中的文本处理方法的步骤流程图,包括:
步骤101、对待识别语句进行分词处理,得到第一分词序列;
步骤102、根据所述第一分词序列,生成第一向量;
步骤103、将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
本公开的文本处理方法可用于识别句子中施事实体和受事实体的顺序关系,所述方法可应用于终端中,所述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group Audio LayerIII)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture Experts GroupAudio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
在具体应用中,文本实体用于指示文本中特定类型或具有特定含义的词语。比如,文本“我想听歌手A演唱的歌曲B。”中包含文本实体“歌手A”和“歌曲B”。
中文文本信息是依靠一系列词语组合起来的具有一定语意的信息,对于语意复杂的中文文本信息,想要抽取其中的具有关联关系的实体,首先需要先确定文本中存在有哪个或者哪些关系,以便实现准确抽取的目的。本公开实施例的核心在于抽取中文语句中施事实体和受事实体的顺序关系,进而可以快捷地确定中文语句中的施事实体和受事实体。
在中文中,每一个关系词一般都有一个施事实体和一个受事实体,施事实体为构成实体关联关系的主动方,受事实体为构成实体关联关系的被动方,即施事实体为关系词的主语,而受事实体为关系词的宾语。例如,在上述文本“我想听歌手A演唱的歌曲B。”中,关系词为动词“演唱”,施事实体为“歌手A”,构成实体关联关系的主动方,受事实体为“歌曲B”,构成实体关联关系的被动方。
为了可以准确并且快捷地提取句子中的施事实体和受事实体。本公开实施例可以预先训练识别模型,该识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,可以识别句子中施事实体和受事实体的顺序关系。
在所述识别模型训练完成之后,可以利用所述识别模型识别句子中施事实体和受事实体的顺序关系。具体地,首先对待识别语句进行分词处理,得到第一分词序列。例如,对于待识别语句“我想听歌手A演唱的歌曲B。”进行分词处理,可以得到第一分词序列为“我/想听/歌手A/演唱/的/歌曲B/”。
本公开实施例以句子为单位,识别句子中施事实体和受事实体的顺序关系。可以理解,本公开实施例对所述待识别语句的来源不加以限制,例如,所述待识别语句可以来源于网页中的文本、或者可以为用户本地存储的文档中的文本、或者还可以为用户通过即时通讯应用发送或者接收的文本、或者还可以为人机交互中的语音数据或者视频数据等。
在本公开实施例中,对于上述不同来源的文本,首先对该文本进行分句处理,得到待识别语句。对于语音数据,本公开实施例可以首先将语音数据通过语音识别技术转换为文本,再对转换后的文本进行分句处理,得到待识别语句。对于视频数据,本公开实施例可以提取视频中的文本(如字幕),对提取的文本进行分句处理,得到待识别语句。或者,可以提取视频中的语音数据,对提取的语音数据通过语音识别技术转换为文本,再对转换后的文本进行分句处理,得到待识别语句。
在获取待识别语句对应的第一分词序列之后,可以根据所述第一分词序列,生成第一向量。例如,可以利用词向量模型如word2vec或GloVe等算法将文本转换为向量形式,以提高模型的计算效率。其中,所述第一向量可以为所述待识别语句对应的句向量,或者所述第一向量还可以为所述待识别语句中各分词对应的词向量所组成的词向量序列。
在本公开的一种可选实施例中,所述根据所述第一分词序列,生成第一向量的步骤之前,所述方法还可以包括:对所述第一分词序列进行过滤,以去除所述第一分词序列中的停用词,得到过滤后的第一分词序列;
所述根据所述第一分词序列,生成第一向量的步骤,具体可以包括:根据所述过滤后的第一分词序列,生成第一向量。
在获取待识别语句对应的第一分词序列之后,本公开实施例还可以根据停用词表,对所述第一分词序列进行过滤,以去除所述第一分词序列中的停用词。所述停用词具体可以包括:语气助词、副词、介词、连接词等,通常其自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。
接下来,将所述第一向量输入已训练完成的识别模型,通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系。例如,对于待识别语句“我想听歌手A演唱的歌曲B。”,将其对应的第一向量输入识别模型之后,输出的标注信息为[1 2],该标注信息可用于表示该待识别语句中施事实体和受事实体的顺序关系。
在本公开实施例中,可以预先定义施事实体和受事实体分别对应的标记信息。例如,施事实体对应的标记信息为1,受事实体对应的标记信息为2,根据上述标注信息[1 2],可以得知在该待识别语句中,先出现的实体为施事实体,后出现的实体为受事实体。
在本公开的一种可选实施例中,所述通过所述识别模型输出标注信息的步骤之后,所述方法还可以包括:
步骤S11、提取所述待识别语句中的实体词;
步骤S12、根据所述实体词在所述待识别语句中的顺序以及所述标注信息中施事实体和受事实体的顺序关系,在所述实体词中确定施事实体和受事实体。
在通过所述识别模型获取待识别语句中施事实体和受事实体的顺序关系之后,本公开实施例可以根据该识别得到的顺序关系,快速确定所述待识别语句中的施事实体和受事实体。
具体地,首先,本公开实施例可以提取所述待识别语句中的实体词。需要说明的是,本公开实施例对提取实体词的方法不加以限制。例如可以采用已训练的提取模型进行提取,或者,可以对待识别语句进行句法分析,提取其中的关键词(如名词、动词等),从所述关键词中确定实体词等。
在本公开的一种应用示例中,假设将待识别语句“我想听歌手A演唱的歌曲B。”输入提取模型,输出得到实体词序列为(歌手A,歌曲B)。然后,根据提取的实体词以及识别模型输出的标注信息[1 2],可以确定该待识别语句中先出现的实体为施事实体,后出现的实体为受事实体,也即歌手A为施事实体,歌曲B为受事实体。
在实际应用中,可以使用序列标注模型对文本中的实体关系进行标注。其做法是首先定义好需要识别的实体类别和序列标注的标签,利用实体字典,对常见的中文实体进行特征分析,输入到序列标注模型。但是使用序列标注模型需要人工进行语法分析,以构造大量的训练特征,严重依赖实体词典的大小以及提取特征质量的好坏,不仅需要投入大量的精力,而且句法分析的准确性直接影响模型的准确性。
本公开实施例使用分类模型替代了传统的序列标注模型,根据待训练语句以及标注样本训练得到识别模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系,并且无需对句子中的每一个分词进行语义分析以及人工标注,只需要以句子为单位,对待训练语句标注施事实体和受事实体的顺序关系。训练得到的识别模型可以输出待识别语句中施事实体和受事实体的顺序关系。例如,对于待识别语句“我想听歌手A演唱的歌曲B。”,将其对应的第一向量输入识别模型之后,输出的标注信息为[1 2],可以得知在该语句中先出现的是施事实体,后出现的是受事实体。根据识别模型识别得到的顺序关系,可以快速确定所述待识别语句中的施事实体和受事实体。不仅可以节省大量的人力资源,而且标注过程不依赖于语法分析,可以避免由于语法分析不准确影响模型准确性的问题。此外,由于本公开实施例仅需标注施事实体和受事实体的顺序关系,极大地减少训练特征的数量,在模型训练过程中,可以使得训练特征快速收敛,提高模型训练的效率。
由此,通过本公开实施例,无需对句子中的每一个分词进行语义分析以及人工标注,只需要以句子为单位,对待训练语句进行标注,得到用于表示所述待训练语句中施事实体和受事实体的顺序关系的标注样本,进而训练得到用于输出待识别语句中施事实体和受事实体的顺序关系的深度神经网络模型,不仅可以降低识别成本,而且根据该深度神经网络模型的输出结果,即可确定句子的主动关系或者被动关系,进而可以提高识别施事实体和受事实体的准确率和效率。
实施例二
参照图2,其示出了本公开的一个实施例中的模型训练方法的步骤流程图,可用于训练所述识别模型,具体包括如下步骤:
步骤201、获取待训练语句;
步骤202、对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本;其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
步骤203、对所述待训练语句进行分词处理,得到第二分词序列;
步骤204、根据所述第二分词序列,生成第二向量;
步骤205、根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。
本公开实施例以句子为单位,识别句子中施事实体和受事实体的顺序关系。在训练识别模型之前,首先获取待训练语句。可以理解,本公开实施例对所述待训练语句的来源不加以限制,例如,所述待训练语句可以来源于网页中的文本、或者可以为用户本地存储的文档中的文本、或者还可以为用户通过即时通讯应用发送或者接收的文本、或者还可以为人机交互中的语音数据或者视频数据等。
在本公开的一种可选实施例中,所述获取待训练语句的步骤,具体可以包括:
步骤S21、获取待训练预料,所述待训练语料包括长句、短句、段落、文章中的至少一项;
步骤S22、对所述待训练语料进行切分处理,得到短句;
步骤S23、将所述短句作为待训练语句。
在本公开的一种优选实施方案中,以短句作为待训练语句。在人机交互场景、或者用户聊天、以及搜索等场景下,用户通常使用的都是短句,因此,本公开实施例首先收集待训练语料,所述待训练语料包括长句、短句、段落、文章中的至少一项,所述待训练语料可以来源于网页中的文本、或者可以为用户本地存储的文档中的文本、或者还可以为用户通过即时通讯应用发送或者接收的文本、或者还可以为人机交互中的语音数据或者视频数据等。然后对待训练语料进行切分处理,得到短句,将所述短句作为待训练语句。
在获取待训练语句之后,对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本;其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
为了降低识别成本以及提高识别效率,本公开实施例与现有的标注方式的区别在于,现有的标注方式通常对句子中的成分进行切分,以词或短语为标注单位;而本公开实施例是以一句话为一个标注单位,针对整个句子进行标注,得到标注样本。
在本公开的一种可选实施例中,所述对所述待训练语句按照预设规则进行标注的步骤,具体可以包括:
步骤S31、对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色,所述语义角色包括:施事角色、受事角色、其他角色中的两项;
步骤S32、确定所述语义角色在所述待训练语句中出现的顺序;
步骤S33、对于每一个待训练语句,将其包含的语义角色对应的角色标记,按照语义角色在待训练语句中出现的顺序,组织得到所述每一个待训练语句对应的标注样本。
本公开实施例将句子中的语义角色简化并抽象为如下三种:施事角色、受事角色以及其他角色,并且为每个语义角色分配预设的角色标记。其中,句子中主要动作的发出者为施事角色,对应的角色标记为1;句子中主要动作的承受着,受动作影响的角色为受事角色,对应的角色标记为2;句子中一切非施事角色和非受事角色在本公开中被合并为其他角色,对应的角色标记为9。优选地,每个句子被标注两个角色标记。
需要说明的是,上述施事角色对应的角色标记为1,受事角色对应的角色标记为2,其他角色对应的角色标记为9,仅作为本公开的一种应用示例,在实际应用中,本公开实施例对不同角色对应的角色标记的具体类型和具体内容不加以限制。
在标注过程中,将句中的施事角色与角色受事分别按照线性顺序进行标记,也即,在句子中先出现哪个角色就先标注哪个角色对应的角色标记。例如,对于待训练语句“小红打了她。”,其中,“小红”为施事角色,“她”为受事角色,按照出现的顺序,可以将该待训练语句标注为[1 2];同理,对于待训练语句“我被小红打了。”,则可以标注为[2 1]。
在本公开的一种可选实施例中,所述对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色的步骤,具体可以包括:
步骤S31、对所述待训练语句进行语义分析,以识别所述待训练语句中的施事角色和受事角色;
步骤S32、若所述待训练语句中不存在施事角色和/或受事角色,则使用其他角色代替,使得每一个待训练语句包含两个语义角色。
本公开实施例对每个待训练语句标注两个角色标记,但是在实际应用中,可能存在一个句子中语义角色的数目小于2的情况。
因此,本公开实施例首先对所述待训练语句进行语义分析,以识别所述待训练语句中的施事角色和受事角色。例如,对待训练语句“小红打了她。”进行语义分析,可以识别得到施事角色为“小红”,受事角色为“她”。
对待训练语句“我被批评了。”进行语义分析,由于该待训练语句中只有受事角色“我”,并没有施事角色,因此,可以将该训练语句中的施事角色用其他角色来代替,可以得到该训练语句对应的标注样本为[2 9]。
又如,对待训练语句“没有。”进行语义分析,由于该待训练语句中既没有施事角色也没有受事角色,因此,可以将该训练语句中的施事角色和受事角色都用其他角色来代替,可以得到该训练语句对应的标注样本为[99]。
在根据本公开实施例的预设规则对待训练语句进行标注,得到用于训练识别模型的标注样本之后,可以对所述待训练语句进行分词处理,得到第二分词序列,并且根据所述第二分词序列,生成第二向量;进而可以根据所述第二向量以及所述标注样本,训练深度神经网络模型。
其中,所述识别模型可以为根据大量的训练样本和机器学习方法,对现有的神经网络进行有监督或者无监督训练而得到的。所述识别模型可以是融合了多种神经网络的分类模型。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套:CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short-Term Memory,长短时记忆)网络、RNN(Simple Recurrent Neural Network,循环神经网络)、注意力神经网络等。
可以理解,本公开实施例对所述识别模型的具体模型结构,以及模型的训练方法不加以限制。例如,可以使用双层卷积网络、BiGRU(Bidirection Gated Recurrent Unit,双向门控循环单元)、以及Softmax(多分类器)的模型结构训练所述识别模型。
具体地,可以将待训练语句对应的第二向量输入双层卷积网络进行特征提取,然后利用BiGRU提取深层次特征,最后利用映射神经元输出,通过概率进行多分类,得到输出结果,根据输出结果与标注样本之间的差异,以及梯度下降算法对初始的识别模型进行迭代优化,直到优化的模型达到预设条件时,停止迭代优化,将最后一次优化的模型作为训练完成的识别模型。
综上,本公开实施例无需对句子中的每一个分词进行语义分析以及人工标注,只需要以句子为单位,对待训练语句进行标注,得到用于表示所述待训练语句中施事实体和受事实体的顺序关系的标注样本,进而训练得到用于输出待识别语句中施事实体和受事实体的顺序关系的深度神经网络模型,不仅可以降低识别成本,而且根据该深度神经网络模型的输出结果,即可确定句子的主动关系或者被动关系,进而可以提高识别施事实体和受事实体的准确率和效率。
实施例三
参照图3,其示出了在本公开的一个实施例中的文本处理装置的结构图,具体如下。
第一分词模块301,用于对待识别语句进行分词处理,得到第一分词序列;
第一转换模块302,用于根据所述第一分词序列,生成第一向量;
关系识别模块303,用于将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。
可选地,所述装置还包括:
实体提取模块,用于提取所述待识别语句中的实体词;
关系确定模块,用于根据所述实体词在所述待识别语句中的顺序以及所述标注信息中施事实体和受事实体的顺序关系,在所述实体词中确定施事实体和受事实体。
可选地,所述装置还包括:
训练语句获取模块,用于获取待训练语句;
训练语句标注模块,用于对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本;其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
第二分词模块,用于对所述待训练语句进行分词处理,得到第二分词序列;
第二转换模块,用于根据所述第二分词序列,生成第二向量;
模型训练模块,用于根据所述第二向量以及所述标注样本,训练深度神经网络模型。
可选地,所述训练语句标注模块,包括:
语义分析子模块,用于对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色,所述语义角色包括:施事角色、受事角色、其他角色中的两项;
顺序确定子模块,用于确定所述语义角色在所述待训练语句中出现的顺序;
样本标注子模块,用于对于每一个待训练语句,将其包含的语义角色对应的角色标记,按照语义角色在待训练语句中出现的顺序,组织得到所述每一个待训练语句对应的标注样本。
可选地,所述语义分析子模块,包括:
角色确定单元,用于对所述待训练语句进行语义分析,以识别所述待训练语句中的施事角色和受事角色;
角色代替单元,用于若所述待训练语句中不存在施事角色和/或受事角色,则使用其他角色代替,使得每一个待训练语句包含两个语义角色。
可选地,所述装置还包括:
过滤模块,用于对所述第一分词序列进行过滤,以去除所述第一分词序列中的停用词,得到过滤后的第一分词序列;
所述第一转换模块,具体用于根据所述过滤后的第一分词序列,生成第一向量。
可选地,所述训练语句获取模块,包括:
语料获取子模块,用于获取待训练预料,所述待训练语料包括长句、短句、段落、文章中的至少一项;
分句处理子模块,用于对所述待训练语料中的长句、段落、文章进行切分处理,得到短句;
语句确定子模块,用于将所述短句作为待训练语句。
综上所述,本公开的实施例提供了一种文本处理装置,所述装置包括:第一分词模块,用于对待识别语句进行分词处理,得到第一分词序列;第一转换模块,用于根据所述第一分词序列,生成第一向量;关系识别模块,用于将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系;其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系。能够快速并准确识别句子中施事实体和受事实体的顺序关系,进而可以提高识别施事实体和受事实体的准确率和效率,并且可以降低识别成本。
实施例四
参照图4,其示出了在本公开的一个实施例中的模型训练装置的结构图,具体如下。
获取模块401,用于获取待训练语句;
标注模块402,用于对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
分词模块403,用于对所述待训练语句进行分词处理,得到第二分词序列;
生成模块404,用于根据所述第二分词序列,生成第二向量;
训练模块405,用于根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开的实施例还提供了一种电子设备,参见图5,包括:处理器501、存储器502以及存储在所述存储器上并可在所述处理器上运行的计算机程序5021,所述处理器执行所述程序时实现前述实施例的文本处理方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的文本处理方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的实施例的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的排序设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种文本处理方法,其特征在于,所述方法包括:
对待识别语句进行分词处理,得到第一分词序列;
根据所述第一分词序列,生成第一向量;
将所述第一向量输入识别模型,以通过所述识别模型输出标注信息,所述标注信息用于表示所述待识别语句中施事实体和受事实体的顺序关系,其中,所述识别模型为根据待训练语句以及标注样本训练得到的深度神经网络模型,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
所述将所述第一向量输入识别模型的步骤之前,所述方法还包括:
获取待训练语句;
对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
对所述待训练语句进行分词处理,得到第二分词序列;
根据所述第二分词序列,生成第二向量;
根据所述第二向量以及所述标注样本,训练深度神经网络模型得到所述识别模型;
所述对所述待训练语句按照预设规则进行标注的步骤,包括:
对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色,所述语义角色包括:施事角色、受事角色、其他角色中的两项;
确定所述语义角色在所述待训练语句中出现的顺序;
对于每一个待训练语句,将其包含的语义角色对应的角色标记,按照语义角色在待训练语句中出现的顺序,组织得到所述每一个待训练语句对应的标注样本。
2.根据权利要求1所述的方法,其特征在于,所述通过所述识别模型输出标注信息的步骤之后,所述方法还包括:
提取所述待识别语句中的实体词;
根据所述实体词在所述待识别语句中的顺序以及所述标注信息中施事实体和受事实体的顺序关系,在所述实体词中确定施事实体和受事实体。
3.根据权利要求1所述的方法,其特征在于,所述对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色的步骤,包括:
对所述待训练语句进行语义分析,以识别所述待训练语句中的施事角色和受事角色;
若所述待训练语句中不存在施事角色和/或受事角色,则使用其他角色代替,使得每一个待训练语句包含两个语义角色。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词序列,生成第一向量的步骤之前,所述方法还包括:
对所述第一分词序列进行过滤,以去除所述第一分词序列中的停用词,得到过滤后的第一分词序列;
所述根据所述第一分词序列,生成第一向量的步骤,包括:
根据所述过滤后的第一分词序列,生成第一向量。
5.根据权利要求1所述的方法,其特征在于,所述获取待训练语句的步骤,包括:
获取待训练预料,所述待训练语料包括长句、短句、段落、文章中的至少一项;
对所述待训练语料中的长句、段落、文章进行切分处理,得到短句;
将所述短句作为待训练语句。
6.一种模型训练方法,其特征在于,所述方法包括:
获取待训练语句;
对所述待训练语句按照预设规则进行标注,得到用于训练识别模型的标注样本,其中,所述标注样本用于表示所述待训练语句中施事实体和受事实体的顺序关系;
对所述待训练语句进行分词处理,得到第二分词序列;
根据所述第二分词序列,生成第二向量;
根据所述第二向量以及所述标注样本,训练深度神经网络模型得到识别模型;
所述对所述待训练语句按照预设规则进行标注的步骤,包括:
对所述待训练语句进行语义分析,确定所述待训练语句包含的语义角色,所述语义角色包括:施事角色、受事角色、其他角色中的两项;
确定所述语义角色在所述待训练语句中出现的顺序;
对于每一个待训练语句,将其包含的语义角色对应的角色标记,按照语义角色在待训练语句中出现的顺序,组织得到所述每一个待训练语句对应的标注样本。
7.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中一个或多个所述的文本处理方法。
8.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-5中一个或多个所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911121910.4A CN111046656B (zh) | 2019-11-15 | 2019-11-15 | 文本处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911121910.4A CN111046656B (zh) | 2019-11-15 | 2019-11-15 | 文本处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046656A CN111046656A (zh) | 2020-04-21 |
CN111046656B true CN111046656B (zh) | 2023-07-14 |
Family
ID=70232075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911121910.4A Active CN111046656B (zh) | 2019-11-15 | 2019-11-15 | 文本处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046656B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779962B (zh) * | 2020-06-10 | 2024-02-02 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备和存储介质 |
CN111738018A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种意图理解方法、装置、设备及存储介质 |
CN111738019A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种复述句识别的方法及装置 |
CN112037782A (zh) * | 2020-06-30 | 2020-12-04 | 北京来也网络科技有限公司 | 一种结合rpa与ai的早媒体识别方法、装置、设备及存储介质 |
CN111966890B (zh) * | 2020-06-30 | 2023-07-04 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
CN113919338B (zh) * | 2020-07-09 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 处理文本数据的方法及设备 |
CN114065751A (zh) * | 2020-08-07 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 申报要素抽取方法及装置和抽取模型生成方法及装置 |
CN112269862B (zh) * | 2020-10-14 | 2024-04-26 | 北京百度网讯科技有限公司 | 文本角色标注方法、装置、电子设备和存储介质 |
CN112784568B (zh) * | 2021-01-29 | 2024-07-26 | 联想(北京)有限公司 | 一种文本评分方法、电子设备和计算机可读存储介质 |
CN112966493A (zh) * | 2021-02-07 | 2021-06-15 | 重庆惠统智慧科技有限公司 | 一种知识图谱构建方法及系统 |
CN113743115A (zh) * | 2021-09-07 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 文本处理的方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN108595421A (zh) * | 2018-04-13 | 2018-09-28 | 北京神州泰岳软件股份有限公司 | 一种中文实体关联关系的抽取方法、装置及系统 |
CN109670174A (zh) * | 2018-12-14 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种事件识别模型的训练方法和装置 |
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
CN110444261A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 序列标注网络训练方法、电子病历处理方法及相关装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649786B (zh) * | 2016-12-28 | 2020-04-07 | 北京百度网讯科技有限公司 | 基于深度问答的答案检索方法及装置 |
-
2019
- 2019-11-15 CN CN201911121910.4A patent/CN111046656B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN108595421A (zh) * | 2018-04-13 | 2018-09-28 | 北京神州泰岳软件股份有限公司 | 一种中文实体关联关系的抽取方法、装置及系统 |
CN109670174A (zh) * | 2018-12-14 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种事件识别模型的训练方法和装置 |
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
CN110444261A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 序列标注网络训练方法、电子病历处理方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111046656A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN107315737B (zh) | 一种语义逻辑处理方法及系统 | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN107436864B (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
US11514235B2 (en) | Information extraction from open-ended schema-less tables | |
US20210407499A1 (en) | Automatically generating conference minutes | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN110457689B (zh) | 语义处理方法及相关装置 | |
CN107491435B (zh) | 基于计算机自动识别用户情感的方法及装置 | |
Vinnarasu et al. | Speech to text conversion and summarization for effective understanding and documentation | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
GB2555207A (en) | System and method for identifying passages in electronic documents | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
EP4364044A1 (en) | Automated troubleshooter | |
US20210034621A1 (en) | System and method for creating database query from user search query | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
Al-Ghamdi et al. | Exploring NLP web APIs for building Arabic systems | |
CN118132669A (zh) | 一种基于大语言模型的智能索引方法 | |
CN111859887A (zh) | 一种基于深度学习的科技新闻自动写作系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |