CN111985235B - 文本处理方法、装置、计算机可读存储介质和电子设备 - Google Patents

文本处理方法、装置、计算机可读存储介质和电子设备 Download PDF

Info

Publication number
CN111985235B
CN111985235B CN201910435168.8A CN201910435168A CN111985235B CN 111985235 B CN111985235 B CN 111985235B CN 201910435168 A CN201910435168 A CN 201910435168A CN 111985235 B CN111985235 B CN 111985235B
Authority
CN
China
Prior art keywords
named entity
text
word
feature vector
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910435168.8A
Other languages
English (en)
Other versions
CN111985235A (zh
Inventor
马腾岳
周蕾蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910435168.8A priority Critical patent/CN111985235B/zh
Publication of CN111985235A publication Critical patent/CN111985235A/zh
Application granted granted Critical
Publication of CN111985235B publication Critical patent/CN111985235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种文本处理方法、装置、计算机可读存储介质和电子设备,其中,该方法包括:确定待标注文本包括的每个文字的字特征向量;基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量;针对待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量;将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到待标注文本包括的每个文字的命名实体标注结果。本公开实施例有效地利用了附加特征向量更有针对性地表征文字的命名实体特征,提高了命名实体标注的准确性和效率。

Description

文本处理方法、装置、计算机可读存储介质和电子设备
技术领域
本公开涉及自然语言处理技术领域,尤其是一种文本处理方法、装置、计算机可读存储介质和电子设备。
背景技术
命名实体标注问题是自然语言中最常见的问题,常见的命名实体标注问题的解决方案主要包括HMM(Hidden Markov Model,隐马尔可夫模型),最大熵模型,CRF(Conditional Random Field,条件随机场)模型等。随着深度学习的发展,神经网络模型在序列标注问题中取得了巨大的成果。基于神经网络模型的命名实体标注方法,由于是基于大量的训练样本训练得到的,命名实体标注的准确性更高。通常,如果想要进一步提高命名实体标注的准确率,需要重新获得更多的训练样本,重新训练模型。
发明内容
本公开的实施例提供了一种文本处理方法、装置、计算机可读存储介质和电子设备。
根据本公开实施例的一个方面,提供了一种文本处理方法,包括:确定待标注文本包括的每个文字的字特征向量;基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量;针对待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量;将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到待标注文本包括的每个文字的命名实体标注结果。
根据本公开实施例的另一个方面,提供了一种文本处理装置,该装置包括:第一确定模块,用于确定待标注文本包括的每个文字的字特征向量;第二确定模块,用于基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量;组合模块,用于针对待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量;标注模块,用于将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到待标注文本包括的每个文字的命名实体标注结果。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述文本处理方法。
根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:数据处理单元;用于存储处理器可执行指令的存储器;数据处理单元,用于执行上述文本处理方法。
基于本公开上述实施例提供的文本处理方法、装置、计算机可读存储介质及电子设备,通过基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量,再将每个文字的字特征向量和附加特征向量组合为待识别特征向量,最后将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到每个文字的命名实体标注结果,从而有效地利用了附加特征向量更有针对性地表征文字的命名实体特征,提高了命名实体标注的准确性和效率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的文本处理方法的流程示意图。
图3是本公开一示例性实施例提供的文本处理方法的应用场景的示意图。
图4是本公开另一示例性实施例提供的文本处理方法的流程示意图。
图5是本公开一示例性实施例提供的基于附加特征向量生成待识别特征向量的示意图。
图6是本公开一示例性实施例提供的文本处理装置的结构示意图。
图7是本公开另一示例性实施例提供的文本处理装置的结构示意图。
图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
基于神经网络模型的命名实体标注方法,由于是基于大量的训练样本训练得到的,命名实体标注的准确性更高。通常,如果想要进一步提高命名实体标注的准确率,需要重新获得更多的训练样本,重新训练模型。并且,由于现有技术所使用的神经网络模型是对输入文本的单字进行词嵌入(embedding),所以对于训练样本中不包括的新词,在命名实体序列标注时容易出错,即准确率较低。如果想要提高新词标注的准确率,需要重新添加数据,重新训练模型,时间成本较高。
示例性系统
图1示出了可以应用本公开的实施例的文本处理方法或文本处理装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如对终端设备101上传的待标注文本进行命名实体标注的后台文本服务器。后台文本服务器可以对接收到的待标注文本进行处理,得到处理结果(例如命名实体标注结果)。
需要说明的是,本公开的实施例所提供的文本处理方法可以由服务器103执行,也可以由终端设备101执行,相应地,文本处理装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
图2是本公开一示例性实施例提供的文本处理方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,确定待标注文本包括的每个文字的字特征向量。
在本实施例中,电子设备(例如图1所示的服务器或终端设备)可以确定待标注文本包括的每个文字的字特征向量。其中,待标注文本可以是利用各种方式预先得到的文本。例如,用户输入的诸如搜索文本、评论文本、即时通信工具上的聊天文本等。字特征向量可以用于表征文字,通常,一个文字对应一个字特征向量。电子设备可以利用现有的词嵌入方法,确定文字的字特征向量。作为示例,上述词嵌入方法可以包括但不限于以下至少一种:one-hot算法、word2vec算法等。
步骤202,基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量。
在本实施例中,电子设备可以基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量。
其中,上述至少一个命名实体词语集合中的每个命名实体词语集合对应于一种命名实体。电子设备可以根据每个文字所在的命名实体词语集合,生成相应的附加特征向量。
作为示例,命名实体词语集合的数量可以是两个,其中一个命名实体词语集合A对应的命名实体为歌曲名,其包括的命名实体词语均为歌曲名;另一个命名实体词语集合B对应的命名实体为歌手姓名,其包括的命名实体词语均为歌手姓名。命名实体词语集合A和命名实体词语集合B可以分别以词典(例如格式为.dict的文件)的形式预先建立。对于待标注文本包括的某个文字,如果该文字包含于命名实体词语集合A中的某个命名实体词语a中,则将用于表征命名实体词语a的预设特征向量作为该文字的附加特征向量。
需要说明的是,上述命名实体词语集合包括的命名实体词语可以在命名实体词语集合中任意添加或删除。例如,对于一个新词,可以将该词添加到相应的命名实体词语集合中,在确定某个文字的附加特征向量时,可以基于添加的新词得到。从而可以实现灵活地调整文字的附加特征向量,当需要进行命名实体标注的语句中出现不包含在训练样本中的新词时,由于可以将新词添加到命名实体词语集合中,从而确定出该新词的附加特征向量,因此可大大提高对新词的标注准确性,此外,在训练命名实体标注模型的时候,同样可以基于上述命名实体词语集合生成附加特征向量,利用附加特征向量对模型进行训练,从而可以实现使用较少的训练样本训练得到标注准确性较高的模型,从而降低硬件资源(例如用于存储训练样本的存储资源)成本和时间成本(例如收集更多的训练样本耗费的时间,以及使用更多的训练样本造成的训练时间延长)。
步骤203,针对待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量。
在本实施例中,针对待标注文本包括的每个文字,电子设备可以将该文字的字特征向量和附加特征向量组合为待识别特征向量。作为示例,对于某个文字,该文字的字特征向量为X1,附加特征向量为X2,则可以将X2包括的元素添加到X1包括的元素之后或之前或其他预设位置,从而得到的新的特征向量X即为待识别特征向量。
由于附加特征向量是基于上述至少一个命名实体词语集合生成的,因此,附加特征向量可以用于表征文字的命名实体特征,利用待识别特征向量进行命名实体标注可以提高命名实体标注的准确性。
步骤204,将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到待标注文本包括的每个文字的命名实体标注结果。
在本实施例中,电子设备可以将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到待标注文本包括的每个文字的命名实体标注结果。
其中,命名实体标注模型可以是利用预设的训练样本,基于各种结构的神经网络模型训练得到的模型。作为示例,上述神经网络模型可以包括但不限于以下至少一种模型:LSTM(Long Short-Term Memory,长短期记忆网络)、CRF(Conditional Random Field,条件随机场)等。
作为示例,命名实体标注模型可以包括BILSTM模型和CRF模型。其中,BILSTM可以对输入的待识别特征向量进行处理,输出待标注文本包括的每个文字对应的至少一个概率,每个概率对应于一个命名实体标注结果,CRF模型可以进一步基于已得到的概率,确定各个命名实体标注结果组合的最优路径,从而最终得到每个文字的命名实体标注结果。例如,待标注文本为“王X的歌”,其中的每个文字分别对应的待识别特征向量为x1、x2、x3、x4,将各个待识别特征向量输入命名实体标注模型,输出的命名实体标注结果可以为包括:“artist+b”、“artist+e”、“O”、“O”。其中,artist+b表示文字“王”为歌手姓名中的首个字,artist+e表示文字“X”为歌手姓名中的最后一个字,“O”表示文字“的”、“歌”不是命名实体。
通常,电子设备可以首先获取预设的训练样本集合,其中,每个训练样本可以包括样本文本,样本文本的每个文字对应于预先确定的样本待识别特征向量和预先设置的样本命名实体标注结果。然后,电子设备可以利用机器学习方法,将训练样本集合中的训练样本包括的各个样本待识别特征向量作为输入,将与输入的样本待识别特征向量对应的样本命名实体标注结果作为期望输出,对初始模型(例如由BILSTM和CRF组合成的模型)进行训练,针对每次训练输入的样本待识别特征向量,可以得到实际输出。其中,实际输出是初始模型实际输出的数据,用于表征命名实体标注结果。然后,电子设备可以采用梯度下降法和反向传播法,基于实际输出和期望输出,调整初始模型的参数,将每次调整参数后得到的模型作为下次训练的初始模型,并在满足预设的训练结束条件的情况下,结束训练,从而训练得到命名实体标注模型。上述训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;利用预设的损失函数(例如交叉熵损失函数)计算所得的损失值小于预设损失值阈值。
需要说明的是,上述样本待识别特征向量可以是利用与上述步骤201-步骤203相同的方法,针对样本待标注文本预先确定的。由于在训练命名实体标注模型的时候,通过基于上述命名实体词语集合生成附加特征向量,使用附加特征向量生成样本待识别特征向量,从而有效地利用了附加特征向量提高了训练得到的模型的标注准确性。训练模型时,可以使用较少的训练样本训练得到标注准确性较高的模型,从而降低了硬件资源(例如用于存储训练样本的存储资源)成本和时间成本(例如收集更多的训练样本耗费的时间,以及使用更多的训练样本造成的训练时间延长)。
在一些可选的实现方式中,步骤204之后,电子设备还可以基于每个文字的命名实体标注结果,确定待标注文本包括的命名实体词语,以及命名实体词语对应的命名实体标记。作为示例,假设待标注文本为“周XX的歌”,其中的每个文字的命名实体标注结果分别为:artist+b(表示文字“周”为歌手姓名的首个字)、artist+i(表示文字“X”为歌手姓名的中间字)、artist+e(表示文字“X”为歌手姓名的尾字)、O(表示文字“的”不是命名实体)、O(表示文字“歌”不是命名实体)。根据命名实体标注结果,可以确定命名实体词语为“周XX”,其对应的命名实体标记可以为“artist”。本实现方式由于采用了上述命名实体标注模型输出的命名实体标注结果,因此,可以提高确定命名实体词语和命名实体标记的准确性。
可选的,在步骤204之后,电子设备可以将所得到的命名实体标注结果输出。例如,可以将命名实体标注结果显示在电子设备包括的显示器上,或者将命名实体标注结果发送到与上述电子设备通信连接的其他电子设备中。
参见图3,图3是根据本实施例的文本处理方法的应用场景的一个示意图。在图3的应用场景中,用户在电子设备301上输入待标注文本302(例如“周XX的歌”),电子设备301利用one-hot算法确定待标注文本302包括的每个文字的字特征向量x1-x5(即执行步骤201),其中,每个字特征向量为128维。然后,电子设备301基于预设的两个命名实体词语集合303、304(这里用artist和title表示两个命名实体词语集合,其中artist包括歌曲名,title包括歌手姓名),确定待标注文本包括的每个文字的附加特征向量(即执行步骤202)。例如,“周”字对应的命名实体标签为“artist+b”,表示artist中包括含有“周”字的词语,并且“周”字为该词语的首字,由于“artist+b”对应于附加特征向量的第一个元素,因此,“周”字对应的附加特征向量为(1 0 0 0 0 0 0 0 0);“的”字不包含于任何命名实体词语集合,因此,“的”字对应于非命名实体标签“O”,由于“O”对应于附加特征向量的最后一个元素,因此,“的”字对应的附加特征向量为(0 0 0 0 0 0 0 0 1)。然后,电子设备301将待标注文本302包括的每个文字的字特征向量(128维)和附加特征向量(9维)组合,得到每个文字对应的待识别特征向量y1-y5(137维)。最后,电子设备301将所得到的待识别特征向量输入预先训练的命名实体标注模型306(例如包括BILSTM模型和CRF模型),得到待标注文本包括的每个文字的命名实体标注结果307。例如,命名实体标注结果包括:“artist+b、artist+i、artist+e”,分别对应于文字“周”、“X”、“X”,即表示“周XX”为歌手姓名。
本公开的上述实施例提供的方法,通过基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量,再将每个文字的字特征向量和附加特征向量组合为待识别特征向量,最后将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到每个文字的命名实体标注结果,从而有效地利用了附加特征向量更有针对性地表征文字的命名实体特征,提高了命名实体标注的准确性和效率。
如图4所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2021,对于待标注文本包括的每个文字,确定该文字是否包含于至少一个命名实体词语集合包括的命名实体词语中。
在本实施例中,对于待标注文本包括的每个文字,电子设备可以确定该文字是否包含于至少一个命名实体词语集合包括的命名实体词语中。作为示例,假设某个文字为“周”,某个命名实体词语集合包括命名实体词语“周XX”,则确定该文字包含于该命名实体词语集合包括的命名实体词语中。
步骤2022,若该文字是含于至少一个命名实体词语集合包括的命名实体词语中,基于该文字在命名实体词语中的位置,生成该文字的附加特征向量。
在本实施例中,电子设备可以确定该文字包含于至少一个命名实体词语集合包括的命名实体词语中,基于该文字在命名实体词语中的位置,生成该文字的附加特征向量。
具体地,作为示例,命名实体词语包括的每个文字的位置可以对应于一个附加特征向量。对于某个文字,电子设备可以确定该文字在命名实体词语中的位置对应的附加特征向量。
在一些可选的实现方式中,步骤2022可以如下执行:
首先,基于该文字在命名实体词语中的位置,确定该文字的命名实体标签。具体地,命名实体词语中的每个文字的位置对应于一个命名实体标签。作为示例,命名实体词语的首字对应的命名实体标签为“b”,末字对应的命名实体标签为“e”,中间字对应的命名实体标签为“i”,对于单字词,其命名实体标签为“s”。
然后,基于命名实体标签与向量位置序号的第一预设对应关系,生成该文字的附加特征向量。
具体地,如下表所示,命名实体词语集合的数量为二,分别对应于歌手姓名(artist)和歌曲名(title),其中“O”表示文字不包含于任何命名实体词语集合中的命名实体词语。
命名实体标签 向量位置序号
artist+b 0
artist+i 1
artist+e 2
artist+s 3
title+b 4
title+i 5
title+e 6
title+s 7
O 8
电子设备可以根据上表,将命名实体标签对应的向量位置序号指示的向量元素置1。作为示例,如图5所示,假设待标注文本为“周杰X的QHC”(这里的字母代表实际的汉字),对于“周”字,artist指示的命名实体词语集合中包括命名实体词语“周杰X”,则文字“周”对应的命名实体标签为“artist+b”,其对应的向量位置序号为0,则附加特征向量为(1 0 0 00 0 0 0 0)。随后,可以将“周”字对应的128维的字特征向量和9维的附加特征向量组合,得到137维的待识别特征向量。对于“杰”字,title指示的命名实体词语集合包括命名实体词语“杰出xx”,则文字“杰”对应的命名实体标签为“artist+i”和“title+b”,其对应的向量位置序号分别为1和4,则附加特征向量为(01 0 0 1 0 0 0 0)。随后,可以将“杰”字对应的128维的字特征向量和9维的附加特征向量组合,得到137维的待识别特征向量。
需要说明的是,命名实体词语集合的数量和种类可以任意设置,相应地,对于不同数量的命名实体词语集合,生成的附加特征向量的维数不同。
在一些可选的实现方式中,步骤202还可以包括如下步骤:
步骤2023,若该文字不包含在至少一个命名实体词语集合包括的命名实体词语中,确定用于表征该文字不包含于至少一个命名实体词语集合包括的任何命名实体词语的非命名实体标签。
作为示例,上表中的字母“O”即为非命名实体标签。假设某个文字为“的”,其不包含在任何命名实体词语中,则确定文字“的”对应于为非命名实体标签“O”。
步骤2024,基于非命名实体标签与向量位置序号的第二预设对应关系,生成该文字的附加特征向量。
作为示例,如上表所示,对于待标注文本“周杰X的QHC”中的文字“的”,对应的向量位置序号为8,则附加特征向量为(0 0 0 0 0 0 0 0 1)。本可选的实现方式,可以在命名实体词语集合中的命名实体词语不包括待标注文本中的文字时,使附加特征向量能够准确地表征文字不属于命名实体,提高对文本进行命名实体标注的准确性。
从图4可以看出,本实施例突出了基于待标注文本中的文字在命名实体词语中的位置,生成该文字的附加特征向量的步骤,由于文字在命名实体中的位置可以用于表征文字的命名实体特征,因此,本实施例有效地利用了命名实体词语集合,生成用于表征命名实体特征的附加特征向量,从而有利于提高对文本进行命名实体标注的准确性。
本公开实施例提供的任一种文本处理方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种文本处理方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本处理方法。下文不再赘述。
示例性装置
图6是本公开一示例性实施例提供的文本处理装置的结构示意图。本实施例可应用在电子设备上,如图6所示,文本处理装置包括:第一确定模块601,用于确定待标注文本包括的每个文字的字特征向量;第二确定模块602,用于基于预设的至少一个命名实体词语集合,确定所述待标注文本包括的每个文字的附加特征向量;组合模块603,用于针对所述待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量;标注模块604,用于将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到所述待标注文本包括的每个文字的命名实体标注结果。
在本实施例中,第一确定模块601可以确定待标注文本包括的每个文字的字特征向量。其中,待标注文本可以是利用各种方式预先得到的文本。例如,用户输入的诸如搜索文本、评论文本、即时通信工具上的聊天文本等。字特征向量可以用于表征文字,通常,一个文字对应一个字特征向量。第一确定模块601可以利用现有的词嵌入方法,确定文字的字特征向量。作为示例,上述词嵌入方法可以包括但不限于以下至少一种:one-hot算法、word2vec算法等。
在本实施例中,第二确定模块602可以基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量。
其中,上述至少一个命名实体词语集合中的每个命名实体词语集合对应于一种命名实体。第二确定模块602可以根据每个文字所在的命名实体词语集合,生成相应的附加特征向量。
作为示例,命名实体词语集合的数量可以是两个,其中一个命名实体词语集合A对应的命名实体为歌曲名,其包括的命名实体词语均为歌曲名;另一个命名实体词语集合B对应的命名实体为歌手姓名,其包括的命名实体词语均为歌手姓名。命名实体词语集合A和命名实体词语集合B可以分别以词典(例如格式为.dict的文件)的形式预先建立。对于待标注文本包括的某个文字,如果该文字包含于命名实体词语集合A中的某个命名实体词语a中,则将预设的、用于表征命名实体词语a的特征向量作为该文字的附加特征向量。
在本实施例中,针对待标注文本包括的每个文字,组合模块603可以将该文字的字特征向量和附加特征向量组合为待识别特征向量。作为示例,对于某个文字,该文字的字特征向量为X1,附加特征向量为X2,则可以将X2包括的元素添加到X1包括的元素之后或之前或其他预设位置,从而得到的新的特征向量X即为待识别特征向量。
由于附加特征向量是基于上述至少一个命名实体词语集合生成的,因此,附加特征向量可以用于表征文字的命名实体特征,利用待识别特征向量进行命名实体标注可以提高命名实体标注的准确性。
在本实施例中,标注模块604可以将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到待标注文本包括的每个文字的命名实体标注结果。
其中,命名实体标注模型可以是利用预设的训练样本,基于各种结构的神经网络模型训练得到的模型。作为示例,上述神经网络模型可以包括但不限于以下至少一种模型:LSTM(Long Short-Term Memory,长短期记忆网络)、CRF(Conditional Random Field,条件随机场)等。
作为示例,命名实体标注模型可以包括BILSTM模型和CRF模型。其中,BILSTM可以对输入的待识别特征向量进行处理,输出待标注文本包括的每个文字对应的至少一个概率,每个概率对应于一个命名实体标注结果,CRF模型可以进一步基于已得到的概率,确定各个命名实体标注结果组合的最优路径,从而最终得到每个文字的命名实体标注结果。例如,待标注文本为“王X的歌”,其中的每个文字分别对应的待识别特征向量为x1、x2、x3、x4,将各个待识别特征向量输入命名实体标注模型,输出的命名实体标注结果可以为包括:“artist+b”、“artist+e”、“O”、“O”。其中,artist+b表示文字“王”为歌手姓名的首个字,artist+e表示文字“X”为歌手姓名的最后一个字,“O”表示文字“的”、“歌”不是命名实体。
参照图7,图7是本公开另一示例性实施例提供的文本处理装置的结构示意图。
在一些可选的实现方式中,第二确定模块602可以包括:第一确定单元6021,用于对于所述待标注文本包括的每个文字,确定该文字是否包含于所述至少一个命名实体词语集合包括的命名实体词语中;第一生成单元6022,用于若该文字包含于所述至少一个命名实体词语集合包括的命名实体词语中,基于该文字在命名实体词语中的位置,生成该文字的附加特征向量。
在一些可选的实现方式中,第一生成单元6022可以包括:确定子单元60221,用于基于该文字在命名实体词语中的位置,确定该文字的命名实体标签;生成子单元60222,用于基于命名实体标签与向量位置序号的第一预设对应关系,生成该文字的附加特征向量。
在一些可选的实现方式中,第二确定模块602还可以包括:第二确定单元6023,用于若该文字不包含在所述至少一个命名实体词语集合包括的命名实体词语中,确定用于表征该文字不包含于所述至少一个命名实体词语集合包括的任何命名实体词语的非命名实体标签;第二生成单元6024,用于基于非命名实体标签与向量位置序号的第二预设对应关系,生成该文字的附加特征向量。
在一些可选的实现方式中,上述装置还可以包括:第三确定模块605,用于基于所述每个文字的命名实体标注结果,确定所述待标注文本包括的命名实体词语,以及命名实体词语对应的命名实体标记。
本公开上述实施例提供的装置,通过基于预设的至少一个命名实体词语集合,确定待标注文本包括的每个文字的附加特征向量,再将每个文字的字特征向量和附加特征向量组合为待识别特征向量,最后将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到每个文字的命名实体标注结果,从而有效地利用了附加特征向量更有针对性地表征文字的命名实体特征,提高了命名实体标注的准确性和效率。
示例性电子设备
下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图8图示了根据本公开实施例的电子设备的框图。
如图8所示,电子设备800包括一个或多个处理器801和存储器802。
处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备800中的其他组件以执行期望的功能。
存储器802可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器801可以运行程序指令,以实现上文的本公开的各个实施例的文本处理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备800还可以包括:输入装置803和输出装置804,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置803可以是鼠标、键盘、麦克风等设备,用于输入文本。在该电子设备是单机设备时,该输入装置803可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的文本。
该输出装置804可以向外部输出各种信息,包括确定出的命名实体标注结果。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备800中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备800还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本处理方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种文本处理方法,包括:
确定待标注文本包括的每个文字的字特征向量;
基于预设的至少一个命名实体词语集合,确定所述待标注文本包括的每个文字的附加特征向量;
针对所述待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量;
将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到所述待标注文本包括的每个文字的命名实体标注结果;
其中,所述基于预设的至少一个命名实体词语集合,确定所述待标注文本包括的每个文字的附加特征向量,包括:
对于所述待标注文本包括的每个文字,确定该文字是否包含于所述至少一个命名实体词语集合包括的命名实体词语中;
若该文字不包含在所述至少一个命名实体词语集合包括的命名实体词语中,将包括该文字的新词添加到所述至少一个命名实体词语集合中,基于该新词确定该文字的附加特征向量。
2.根据权利要求1所述的方法,其中,在所述对于所述待标注文本包括的每个文字,确定该文字是否包含于所述至少一个命名实体词语集合包括的命名实体词语中之后,还包括;
若该文字包含于所述至少一个命名实体词语集合包括的命名实体词语中,基于该文字在命名实体词语中的位置,生成该文字的附加特征向量。
3.根据权利要求2所述的方法,其中,所述基于该文字在命名实体词语中的位置,生成该文字的附加特征向量,包括:
基于该文字在命名实体词语中的位置,确定该文字的命名实体标签;
基于命名实体标签与向量位置序号的第一预设对应关系,生成该文字的附加特征向量。
4.根据权利要求2所述的方法,其中,在所述确定该文字是否包含于所述至少一个命名实体词语集合包括的命名实体词语中之后,所述方法还包括:
若该文字不包含在所述至少一个命名实体词语集合包括的命名实体词语中,确定用于表征该文字不包含于所述至少一个命名实体词语集合包括的任何命名实体词语的非命名实体标签;
基于非命名实体标签与向量位置序号的第二预设对应关系,生成该文字的附加特征向量。
5.根据权利要求1-4之一所述的方法,其中,所述方法还包括:
基于所述每个文字的命名实体标注结果,确定所述待标注文本包括的命名实体词语,以及命名实体词语对应的命名实体标记。
6.一种文本处理装置,包括:
第一确定模块,用于确定待标注文本包括的每个文字的字特征向量;
第二确定模块,用于基于预设的至少一个命名实体词语集合,确定所述待标注文本包括的每个文字的附加特征向量;
组合模块,用于针对所述待标注文本包括的每个文字,将该文字的字特征向量和附加特征向量组合为待识别特征向量;
标注模块,用于将所得到的待识别特征向量输入预先训练的命名实体标注模型,得到所述待标注文本包括的每个文字的命名实体标注结果;
其中,所述第二确定模块包括:
第一确定单元,用于对于所述待标注文本包括的每个文字,确定该文字是否包含于所述至少一个命名实体词语集合包括的命名实体词语中;
第一生成单元,用于若该文字不包含在所述至少一个命名实体词语集合包括的命名实体词语中,将包括该文字的新词添加到所述至少一个命名实体词语集合中,基于该新词确定该文字的附加特征向量。
7.根据权利要求6所述的装置,其中,所述第一生成单元还用于若该文字包含于所述至少一个命名实体词语集合包括的命名实体词语中,基于该文字在命名实体词语中的位置,生成该文字的附加特征向量。
8.根据权利要求7所述的装置,其中,所述第一生成单元包括:
确定子单元,用于基于该文字在命名实体词语中的位置,确定该文字的命名实体标签;
生成子单元,用于基于命名实体标签与向量位置序号的第一预设对应关系,生成该文字的附加特征向量。
9.根据权利要求7所述的装置,其中,所述第二确定模块还包括:
第二确定单元,用于若该文字不包含在所述至少一个命名实体词语集合包括的命名实体词语中,确定用于表征该文字不包含于所述至少一个命名实体词语集合包括的任何命名实体词语的非命名实体标签;
第二生成单元,用于基于非命名实体标签与向量位置序号的第二预设对应关系,生成该文字的附加特征向量。
10.根据权利要求6-9之一所述的装置,其中,所述装置还包括:
第三确定模块,用于基于所述每个文字的命名实体标注结果,确定所述待标注文本包括的命名实体词语,以及命名实体词语对应的命名实体标记。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的文本处理方法。
12.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-5任一所述的文本处理方法。
CN201910435168.8A 2019-05-23 2019-05-23 文本处理方法、装置、计算机可读存储介质和电子设备 Active CN111985235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910435168.8A CN111985235B (zh) 2019-05-23 2019-05-23 文本处理方法、装置、计算机可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910435168.8A CN111985235B (zh) 2019-05-23 2019-05-23 文本处理方法、装置、计算机可读存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111985235A CN111985235A (zh) 2020-11-24
CN111985235B true CN111985235B (zh) 2024-05-07

Family

ID=73437481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910435168.8A Active CN111985235B (zh) 2019-05-23 2019-05-23 文本处理方法、装置、计算机可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111985235B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723051B (zh) * 2021-08-26 2023-09-15 泰康保险集团股份有限公司 一种文本标注方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970806A (zh) * 2013-02-05 2014-08-06 百度在线网络技术(北京)有限公司 一种建立歌词感情分类模型的方法及装置
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970806A (zh) * 2013-02-05 2014-08-06 百度在线网络技术(北京)有限公司 一种建立歌词感情分类模型的方法及装置
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Also Published As

Publication number Publication date
CN111985235A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN109635103B (zh) 摘要生成方法和装置
CN108877782B (zh) 语音识别方法和装置
CN110209812B (zh) 文本分类方法和装置
CN112926306B (zh) 文本纠错方法、装置、设备以及存储介质
CN110019742B (zh) 用于处理信息的方法和装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN109190123B (zh) 用于输出信息的方法和装置
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN111639162A (zh) 信息交互方法和装置、电子设备和存储介质
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN111159394A (zh) 一种文本摘要生成方法和装置
CN112711943B (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN111985235B (zh) 文本处理方法、装置、计算机可读存储介质和电子设备
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN111738791B (zh) 一种文本处理方法、装置、设备和存储介质
CN110738056A (zh) 用于生成信息的方法和装置
CN110675865B (zh) 用于训练混合语言识别模型的方法和装置
CN113761923A (zh) 命名实体识别方法、装置、电子设备及存储介质
US20220027577A1 (en) Text generation with customizable style
CN112329454A (zh) 语种识别方法、装置、电子设备及可读存储介质
CN112542154B (zh) 文本转换方法、装置、计算机可读存储介质及电子设备
CN110929749B (zh) 文本识别方法、装置、介质及电子设备
CN115965018B (zh) 信息生成模型的训练方法、信息生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant