CN111859968A

CN111859968A - 一种文本结构化方法、文本结构化装置及终端设备

Info

Publication number: CN111859968A
Application number: CN202010543935.XA
Authority: CN
Inventors: 陈国�; 杨凤玲; 魏政
Original assignee: Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Current assignee: Shenzhen Aerospace Technology & Innovation Industrial Co ltd; Aerospace Science and Industry Shenzhen Group Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-30

Abstract

本申请适用于自然语言处理技术领域，提供了一种文本结构化方法、文本结构化装置及终端设备，所述方法包括：对待处理文本进行分词，得到词语序列，所述词语序列中包括至少一个词语；对所述词语序列中的各个词语进行词性标注，得到各个词语的词性；对所述待处理文本进行命名实体识别，得到命名实体序列，所述命名实体序列中包括至少一个命名实体；对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果；根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果，对所述待处理文本进行结构化处理，得到结构化文本。通过上述方法，可以在非结构化文本中发现关键信息，并将这些关键信息进行结构化。

Description

一种文本结构化方法、文本结构化装置及终端设备

技术领域

本申请属于自然语言处理技术领域，尤其涉及一种文本结构化方法、文本结构化装置、终端设备及计算机可读存储介质。

背景技术

随着互联网技术的发展和普及，越来越多的文本(如政法文书)实现了电子化。在数量日益增长的电子文本中，又有一大部分属于非结构化文本，如何快速地从海量的非结构化文本中发现关键信息，并将这些关键信息进行结构化是一个难题。

发明内容

有鉴于此，本申请提供了一种文本结构化方法、文本结构化装置、终端设备及计算机可读存储介质，可以在非结构化文本中发现关键信息，并将这些关键信息进行结构化。

第一方面，本申请实施例提供了一种文本结构化方法，包括：

对待处理文本进行分词，得到词语序列，上述词语序列中包括至少一个词语；

对上述词语序列中的各个词语进行词性标注，得到各个词语的词性；

对上述待处理文本进行命名实体识别，得到命名实体序列，上述命名实体序列中包括至少一个命名实体；

对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果；

根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本。

第二方面，本申请实施例提供了一种文本结构化装置，包括：

分词单元，用于对待处理文本进行分词，得到词语序列，上述词语序列中包括至少一个词语；

词性标注单元，用于对上述词语序列中的各个词语进行词性标注，得到各个词语的词性；

实体识别单元，用于对上述待处理文本进行命名实体识别，得到命名实体序列，上述命名实体序列中包括至少一个命名实体；

角色标注单元，用于对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果；

结构化处理单元，用于根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如第一方面所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中所提供的方法。

由上可见，本申请方案中，首先，对待处理文本进行分词，得到词语序列，上述词语序列中包括至少一个词语，对上述词语序列中的各个词语进行词性标注，得到各个词语的词性，然后，对上述待处理文本进行命名实体识别，得到命名实体序列，上述命名实体序列中包括至少一个命名实体，对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，最后，根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本。本申请方案通过分词模型对待处理文本进行分词，通过词性标注模型对分词进行词性标注，通过命名实体识别模型提取各个命名实体，通过语义角色标注模型对各个命名实体进行语义角色标注，最终通过得到的词语序列、词性、命名实体序列和语义角色标注结果，从待处理文本中提取出关键信息，并将这些关键信息进行结构化。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本结构化方法的流程示意图；

图2是本申请实施例提供的文本结构化装置的结构示意图；

图3是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出了本申请实施例提供的一种文本结构化方法的流程图，详述如下：

步骤101，对待处理文本进行分词，得到词语序列；

在本申请实施例中，待处理文本即为当前需要结构化的文本，待处理文本由至少一条句子组成。对待处理文本进行分词，可以得到词语序列，其中，词语序列中包括至少一个词语，词语为组成待处理文本的基本单元，基本单元可以是基本词汇、汉字或标点符号。应理解的是，词语序列中的各个词语按照在待处理文本中的位置先后顺序排列。

举例来说明，待处理文本可以是“张三，男，1943年02月02日出生，身份证号：320112xxxxxxxxxxxx，住址：南京市鼓楼区金海园8号303室”，对待处理文本分词后，得到的词语序列为“张三/，/男/，/1943/年/02/月/02/日/出生/，/身份证号/：/320112xxxxxxxxxxxx/，/住址/：/南京市/鼓楼区/金海/园/8/号/303/室”。在该词语序列中，相邻的词语之间通过“/”隔开，比如“南京市”为一个词语，“彭楼区”为另一个词语。

可选地，上述步骤101可具体包括：

基于训练后的分词模型和预设的领域术语字典对待处理文本进行分词，得到词语序列；

其中，预设的领域术语词典中包括属于预设领域(如政法领域)的专业术语，以及预设领域之外的普通词语。将待处理文本输入至分词模型后，分词模型会针对待处理文本中的每一个字，统计这个字在领域术语字典中出现的次数，并计算这个字的状态分别为词头、词中、词尾和单字的概率。例如，“南”字在领域术语字典中出现的次数为100次，其中有80次“南”字的状态为词头，则“南”字的状态为词头的概率为80除以100等于0.8。由于“南”字为词头的概率最大，则可以将“南”字的状态标注为词头。基于此，我们可以为待处理文本中的每个字标注状态，例如，用B表示词头、M表示词中、E表示词尾以及S表示单字，为文本“我爱北京天安门”中的每个字标注状态后得到“我/S爱/S北/B京/E天/B安/M门/E”，根据每个字的状态，可以得到词语序列为“我/爱/北京/天安门”。

步骤102，对词语序列中的各个词语进行词性标注，得到各个词语的词性；

在本申请实施例中，获得词语序列后，需要对词语序列中的各个词语进行词性标注。可以理解的是，对于预设领域之外的普通词语，标注的词性可包括名词、动词、代词、副词及形容词等，还可以包括其它词性，具体可以根据实际情况进行设置和调整，此处不做具体限定；对于属于预设领域(如政法领域)的专业术语，则直接将其标注为专业术语，而不会进行具体词性的标注。

基于上述步骤101中提及的举例，对词语序列“张三/，/男/，/1943/年/02/月/02/日/出生/，/身份证号/：/320112xxxxxxxxxxxx/，/住址/：/南京市/鼓楼区/金海/园/8/号/303/室”进行词性标注，得到“张三(nr)/，(x)/男(n)/，(x)/1943(m)/年(m)/02(m)/月(m)/02(m)/日(m)/出生(v)/，(x)/身份证号(n)/：(x)/320112xxxxxxxxxxxx(m)/，(x)/住址(n)/：(x)/南京市(ns)/鼓楼区(n)/金海(ns)/园(n)/8(m)/号(m)/303(m)/室(n)”，其中，nr表示人名，x表示非语素字，n表示名词，m表示数词，v表示动词，ns表示地名。

示例性地，可通过隐马尔可夫模型进行词性标注，隐马尔可夫模型(HiddenMarkov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列得到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机模型，具有一定状态数的隐马尔可夫链和显示随机函数集。

对于未训练的隐马尔可夫模型，其训练过程包括如下：获取训练数据，训练数据包括训练文本。对训练文本进行分词后得到词语序列，以及词语序列中各个词语的词性。将训练数据输入到未训练的隐马尔可夫模型后，未训练的隐马尔可夫模型根据词语序列中各个词语的位置关系以及各个词语的词性建立观测向量序列，观测向量序列中包括各个词性之间的顺序关系。针对每个观测向量序列中的任意两个词性，根据样本数据中具有该两个词性的词语的位置关系，确定两个词性之间的转移概率，即一个词性后面跟随另一个词性的概率，或者，一个词性之前有另一个词性的概率，从而得到大量的转移概率固定的马尔科夫链，进而得到训练后的隐马尔可夫模型。将词语序列输入训练后的隐马尔可夫模型后，训练后的隐马尔可夫模型获取词语序列中各个词语的位置关系，根据各个词语的位置关系以及转移概率固定的多个马尔科夫链，即可完成对词语序列中各个词语的词性标注。

步骤103，对待处理文本进行命名实体识别，得到命名实体序列；

在本申请实施例中，命名实体序列中包括至少一个命名实体，其中，命名实体是指待处理文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别的任务就是将待处理文本中命名实体识别出，并为识别出的每个命名实体标注相应的实体类型。

基于上述步骤101中提及的举例，对待处理文本“张三，男，1943年02月02日出生，身份证号：320112xxxxxxxxxxxx，住址：南京市鼓楼区金海园8号303室”进行命名实体识别后，得到的命名实体序列为“1943年02月02日(日期)，320112xxxxxxxxxxxx(证件号码)，南京市鼓楼区金海园8号303室(地址)”，其中，“1943年02月02日”为一个命名实体，其实体类型为日期，“320112xxxxxxxxxxxx”为另一个命名实体，其实体类型为证件号码，“南京市鼓楼区金海园8号303”为又一个命名实体，其实体类型为地址。

可选地，上述步骤103可具体包括：

基于训练后的命名实体识别模型对待处理文本进行命名实体识别，得到命名实体序列；

其中，命名实体识别模型的训练样本包括属于预设领域(如政法领域)的文本，例如文本为裁判文书，且该文本采用人工标注的方式进行了命名实体的标注处理。将待处理文本输入至实体识别模型后，由命名实体识别模型对待处理文本进行命名实体识别。具体地，命名实体识别模型将待处理文本中的每个字进行向量化，得到字符嵌入序列；然后从字符嵌入序列中提取出句子特征，并利用提取出的句子特征为待处理文本的每个字标注类别标签，其中类别标签包括但不限于B-PER(表示人名首字)、I-PER(表示人名非首字)、B-LOC(表示地名首字)、I-LOC(表示地名非首字)、B-ORG(表示组织机构名首字)、I-ORG(组织机构名非首字)及O(表示该字不属于命名实体的一部分)等；最后根据每个字的类别标签，即可确定出命名实体的实体边界，进而识别待处理文本中的命名实体。

步骤104，对命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果。

在本申请实施例中，语义角色标注是一种浅层语义分析技术，它以句子为单位，不对句子所包含的语义信息进行深入分析，而只是分析句子的谓词-论元结构。具体来讲，语义角色标注的任务就是以句子的谓词为中心，研究句子中各论元与谓词之间的关系，并且通过语义角色标注来描述论元与谓词之间的关系。具体地，对各个命名实体进行语义角色标注，可以得到语义角色标注结果，语义角色标注结果中包括各个命名实体对应的语义角色标签(如施事、受事及事等)。

举例来说明，假设待处理文本为“张三于10月12日盗窃李四现金2000元”，该待处理文本对应的命名实体序列为“张三(人)，10月12日(日期)，李四(人)”，其中，“盗窃”为谓词，对命名实体序列中的各个命名实体进行语义角色标注后，得到张三的语义角色标签为施事，李四的语义角色标签为受事。

可选地，在上述步骤104之前，可以将词语序列中，属于同一命名实体的词语进行重组，得到组合序列。例如，假设词语序列为“张三/，/男/，/1943/年/02/月/02/日/出生/，/身份证号/：/320112xxxxxxxxxxxx/，/住址/：/南京市/鼓楼区/金海/园/8/号/303/室”，命名实体序列为“1943年02月02日(日期)，320112xxxxxxxxxxxx(证件号码)，南京市鼓楼区金海园8号303室(地址)”，可以看到，词语序列中的词语“1943”、“年”、“02”、“月”、“02”与“日”属于同一个命名实体，因此，将词语“1943”、“年”、“02”、“月”、“02”与“日”重组为一个命名实体，即“1943年02月02日”，类似地，将“南京市”、“鼓楼区”、“金海”、“园”、“8”、“号”、“303”与“室”重组为一个命名实体，即“南京市鼓楼区金海园8号303室”。最终，得到的组合序列即为“张三/，/男/，/1943年02月02日/出生/，/身份证号/：/320112xxxxxxxxxxxx/，/住址/：/南京市鼓楼区金海园8号303室”。

进一步地，得到组合序列后，可以将组合序列输入到训练后的语义角色标注模型中，由训练后的语义角色标注模型对命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果。其中，语义角色标注模型的训练样本包括属于预设领域(如政法领域)的文本，且该文本采用人工标注的方式进行了预设领域的专业术语的语义角色的标注处理。具体地，语义角色标注模型可以是门控循环单元(gatedrecurrent unit，GRU)，将训练样本输入至初始的GRU中，初始的GRU对训练样本进行语义角色标注，得到训练样本对应的语义角色标注结果，然后根据训练样本对应的语义角色标注结果计算损失值，调整GRU的模型参数，使损失值减小，最终，得到训练后的GRU。通过训练后的GRU，即可实现对待处理文本的语义角色标注。

步骤105，根据词语序列、各个词语的词性、命名实体序列和语义角色标注结果，对待处理文本进行结构化处理，得到结构化文本。

在本申请实施例中，根据词语序列中的各个词语、各个词语的词性、命名实体序列中的各个命名实体以及各个命名实体对应的语义角色标签，即可识别出待处理文本中包含的关键信息，然后将这些关键信息进行结构化，得到结构化文本。

举例来说明，假设待处理文本为“张三于10月12日盗窃李四现金2000元”，根据词语序列、各个词语的词性、命名实体序列以及语义角色标注结果，识别出的关键信息包括犯罪嫌疑人“张三”、受害人“李四”以及作案时间“10月12日”，将这些关键信息进行结构化，得到的结构化文本如下：

“犯罪嫌疑人：张三；

受害人：李四；

作案时间：10月12日。”

示例性地，可以分别为每一种类的文本预先设置对应的要素解析模板，要素解析模板中包括至少一个要素字段、每个要素字段的上下文信息以及每个要素字段的提取规则。其中，上下文信息指示了要素字段的上文内容与下文内容，提取规则由开发人员根据中文语法制定。在对待处理文本进行结构化处理之前，终端设备首先需要获取待处理文本的种类，待处理文本的种类可以由用户输入，也可以通过分析待处理文本的内容得出，此处不作限定；然后，在预设的至少一个要素解析模板中，确定出与待处理文本的种类对应的要素解析模板，并将该要素解析模板作为目标要素解析模板。

获得目标要素解析模板之后，需要遍历目标要素解析模板中的每一个要素字段，并对当前要素字段(即当前遍历到的要素字段)执行如下步骤：首先根据当前要素字段的上下文信息，确定当前要素字段的字段值在待处理文本中的位置范围；然后将词语序列中属于该位置范围内的词语和命名实体序列中属于该位置范围内的命名实体作为候选词；最后根据当前要素字段的提取规则、词语序列中各个词语的词性和命名实体序列中各个命名实体的语义角色标签，即可从候选词中提取出当前要素字段的字段值。

例如，当前要素字段为“出生日期”，“出生日期”的上文内容为“犯罪嫌疑人”，“出生日期”的下文内容为“违法犯罪经历”，则“出生日期”的字段值在待处理文本中的位置范围为“犯罪嫌疑人与违法犯罪经历之间”，“出生日期”的提取规则为：“生”字前面的日期为出生日期。又例如，当前要素字段为“住址”，“住址”的上文内容为“犯罪嫌疑人”，“住址”的下文内容为“违法犯罪经历”，则“住址”的字段值在待处理文本中的位置范围为“犯罪嫌疑人与违法犯罪经历之间”，“住址”的提取规则为：“住”字后面的地址为住址。基于此，可以将待处理文本中所有的要素字段的字段值提取出来，从而得到结构化文本。

可选地，在步骤101之前还包括：

获取待处理文件；

检测待处理文件是否为文本；

若待处理文件为文本，则将待处理文件作为待处理文本；

若待处理文件不为文本，则检测待处理文件是否为图片；

若待处理文件为图片，则通过光学字符识别将待处理文件转换为文本，得到待处理文本。

其中，待处理文件即为用户指定的文件，待处理文件可以是文本，可以是图片，还可以是其它类型的文件。在获取待处理文件后，终端设备检测该待处理文件是否为文本，如果待处理文件是文本，则可以直接将待处理文件作为待处理文本；如果待处理文件不是文本，则检测待处理文件是不是图片，如果待处理文件是图片，则通过光学字符识别将待处理文件转换为文本，并将转换得到的该文本作为待处理文本。应理解的是，待处理文件可能既不是文本，也不是图片，比如待处理文件是音频。当检测出待处理文件不为文本，也不为图片时，终端设备可以输出提示消息，该提示消息用于提示用户输入的待处理文件非法。

由上可见，本申请方案中，首先，对待处理文本进行分词，得到词语序列，上述词语序列中包括至少一个词语，对上述词语序列中的各个词语进行词性标注，得到各个词语的词性，然后，对上述待处理文本进行命名实体识别，得到命名实体序列，上述命名实体序列中包括至少一个命名实体，对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，最后，根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本。本申请方案通过分词模型对待处理文本进行分词，通过词性标注模型对分词进行词性标注，通过命名实体识别模型提取各个命名实体，通过语义角色标注模型对各个命名实体进行语义角色标注，最终在得到的词语序列、词性、命名实体序列和语义角色标注结果的基础上，通过预设的提取规则从待处理文本中提取出要素字段的字段值，实现了在待处理文本中发现关键信息(即要素字段的字段值)，并将这些关键信息进行结构化。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图2示出了本申请实施例提供的一种文本结构化装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

该文本结构化装置200包括：

分词单元201，用于对待处理文本进行分词，得到词语序列，上述词语序列中包括至少一个词语；

词性标注单元202，用于对上述词语序列中的各个词语进行词性标注，得到各个词语的词性；

实体识别单元203，用于对上述待处理文本进行命名实体识别，得到命名实体序列，上述命名实体序列中包括至少一个命名实体；

角色标注单元204，用于对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果；

结构化处理单元205，用于根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本。

可选地，上述文本结构化装置200还包括：

种类获取单元，用于获取上述待处理文本的种类；

目标模板确定单元，用于在预设的至少一个要素解析模板中，确定与上述待处理文本的种类对应的目标要素解析模板，上述要素解析模板包括要素字段、上述要素字段的上下文信息以及上述要素字段的提取规则。

可选地，上述结构化处理单元205还包括：

位置确定子单元，用于根据上述上下文信息，确定上述要素字段的字段值在上述待处理文本中的位置范围；

字段提取子单元，用于根据上述提取规则、各个词语的词性和上述语义角色标注结果，从候选词中提取出上述要素字段的字段值，得到结构化文本，上述候选词包括上述词语序列中属于上述位置范围内的词语和上述命名实体序列中属于上述位置范围内的命名实体。

可选地，上述角色标注单元204，具体用于基于训练后的语义角色标注模型对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，上述语义角色标注模型的训练样本包括属于预设领域的文本，且上述文本采用人工标注的方式进行了预设领域的专业术语的语义角色的标注处理。

可选地，上述文本结构化装置200还包括：

重组单元，用于将上述词语序列中，属于同一命名实体的词语进行重组，得到组合序列。

可选地，上述角色标注单元204，具体用于将上述组合序列输入至上述语义角色标注模型，得到上述语义角色标注结果。

可选地，上述分词单元201，具体用于基于训练后的分词模型和预设的领域术语字典对待处理文本进行分词，得到上述词语序列，上述领域术语字典中包括预设领域的专业术语。

可选地，上述实体识别单元203，具体用于基于训练后的命名实体识别模型对上述待处理文本进行命名实体识别，得到上述命名实体序列，上述命名实体识别模型的训练样本包括属于预设领域的文本，且上述文本采用人工标注的方式进行了命名实体的标注处理。

可选地，上述文本结构化装置200还包括：

文件获取单元，用于获取待处理文件；

文本检测单元，用于检测上述待处理文件是否为文本；

待处理文本确定单元，用于若上述待处理文件为文本，则将上述待处理文件作为上述待处理文本；

图片检测单元，用于若上述待处理文件不为文本，则检测上述待处理文件是否为图片；

文本转换单元，用于若上述待处理文件为图片，则通过光学字符识别将上述待处理文件转换为文本，得到上述待处理文本。

图3为本申请一实施例提供的终端设备的结构示意图。如图3所示，该实施例的终端设备3包括：至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在上述存储器31中并可在上述至少一个处理器30上运行的计算机程序32，上述处理器30执行上述计算机程序32时实现以下步骤：

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，在上述根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本之前，上述处理器30执行上述计算机程序32时还实现以下步骤：

获取上述待处理文本的种类；

在预设的至少一个要素解析模板中，确定与上述待处理文本的种类对应的目标要素解析模板，上述要素解析模板包括要素字段、上述要素字段的上下文信息以及上述要素字段的提取规则；

相应地，上述根据上述词语序列、各个词语的词性、上述命名实体序列和上述语义角色标注结果，对上述待处理文本进行结构化处理，得到结构化文本，包括：

根据上述上下文信息，确定上述要素字段的字段值在上述待处理文本中的位置范围；

根据上述提取规则、各个词语的词性和上述语义角色标注结果，从候选词中提取出上述要素字段的字段值，得到结构化文本，上述候选词包括上述词语序列中属于上述位置范围内的词语和上述命名实体序列中属于上述位置范围内的命名实体。

在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，包括：

基于训练后的语义角色标注模型对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，上述语义角色标注模型的训练样本包括属于预设领域的文本，且上述文本采用人工标注的方式进行了预设领域的专业术语的语义角色的标注处理。

在上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中，在上述对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果之前，上述处理器30执行上述计算机程序32时还实现以下步骤：

将上述词语序列中，属于同一命名实体的词语进行重组，得到组合序列；

相应地，上述基于训练后的语义角色标注模型对上述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，包括：

将上述组合序列输入至上述语义角色标注模型，得到上述语义角色标注结果。

在上述第一种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述对待处理文本进行分词，得到词语序列，包括：

基于训练后的分词模型和预设的领域术语字典对待处理文本进行分词，得到上述词语序列，上述领域术语字典中包括预设领域的专业术语。

在在上述第一种可能的实施方式作为基础而提供的第六种可能的实施方式中，上述对上述待处理文本进行命名实体识别，得到命名实体序列，包括：

基于训练后的命名实体识别模型对上述待处理文本进行命名实体识别，得到上述命名实体序列，上述命名实体识别模型的训练样本包括属于预设领域的文本，且上述文本采用人工标注的方式进行了命名实体的标注处理。

在在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础，或者上述第五种可能的实施方式作为基础，或者上述第六种可能的实施方式作为基础而提供的第七种可能的实施方式中，在上述对待处理文本进行分词，得到词语序列之前，上述处理器30执行上述计算机程序32时还实现以下步骤：

获取待处理文件；

检测上述待处理文件是否为文本；

若上述待处理文件为文本，则将上述待处理文件作为上述待处理文本；

若上述待处理文件不为文本，则检测上述待处理文件是否为图片；

若上述待处理文件为图片，则通过光学字符识别将上述待处理文件转换为文本，得到上述待处理文本。

上述终端设备3可以是手机、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图3仅仅是终端设备3的举例，并不构成对终端设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器31在一些实施例中可以是上述终端设备3的内部存储单元，例如终端设备3的硬盘或内存。上述存储器31在另一些实施例中也可以是上述终端设备3的外部存储设备，例如上述终端设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器31还可以既包括上述终端设备3的内部存储单元也包括外部存储设备。上述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如上述计算机程序的程序代码等。上述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备爱上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本结构化方法，其特征在于，包括：

对待处理文本进行分词，得到词语序列，所述词语序列中包括至少一个词语；

对所述词语序列中的各个词语进行词性标注，得到各个词语的词性；

对所述待处理文本进行命名实体识别，得到命名实体序列，所述命名实体序列中包括至少一个命名实体；

对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果；

根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果，对所述待处理文本进行结构化处理，得到结构化文本。

2.根据权利要求1所述的文本结构化方法，其特征在于，在所述根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果，对所述待处理文本进行结构化处理，得到结构化文本之前，所述文本结构化方法还包括：

获取所述待处理文本的种类；

在预设的至少一个要素解析模板中，确定与所述待处理文本的种类对应的目标要素解析模板，所述要素解析模板包括要素字段、所述要素字段的上下文信息以及所述要素字段的提取规则；

相应地，所述根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果，对所述待处理文本进行结构化处理，得到结构化文本，包括：

根据所述上下文信息，确定所述要素字段的字段值在所述待处理文本中的位置范围；

根据所述提取规则、各个词语的词性和所述语义角色标注结果，从候选词中提取出所述要素字段的字段值，得到结构化文本，所述候选词包括所述词语序列中属于所述位置范围内的词语和所述命名实体序列中属于所述位置范围内的命名实体。

3.根据权利要求1所述的文本结构化方法，其特征在于，所述对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，包括：

基于训练后的语义角色标注模型对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，所述语义角色标注模型的训练样本包括属于预设领域的文本，且所述文本采用人工标注的方式进行了预设领域的专业术语的语义角色的标注处理。

4.根据权利要求3所述的文本结构化方法，其特征在于，在所述对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果之前，所述文本结构化方法还包括：

将所述词语序列中，属于同一命名实体的词语进行重组，得到组合序列；

相应地，所述基于训练后的语义角色标注模型对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果，包括：

将所述组合序列输入至所述语义角色标注模型，得到所述语义角色标注结果。

5.根据权利要求1所述的文本结构化方法，其特征在于，所述对待处理文本进行分词，得到词语序列，包括：

基于训练后的分词模型和预设的领域术语字典对待处理文本进行分词，得到所述词语序列，所述领域术语字典中包括预设领域的专业术语。

6.根据权利要求1所述的文本结构化方法，其特征在于，所述对所述待处理文本进行命名实体识别，得到命名实体序列，包括：

基于训练后的命名实体识别模型对所述待处理文本进行命名实体识别，得到所述命名实体序列，所述命名实体识别模型的训练样本包括属于预设领域的文本，且所述文本采用人工标注的方式进行了命名实体的标注处理。

7.根据权利要求1至6任一项所述的文本结构化方法，其特征在于，在所述对待处理文本进行分词，得到词语序列之前，还包括：

获取待处理文件；

检测所述待处理文件是否为文本；

若所述待处理文件为文本，则将所述待处理文件作为所述待处理文本；

若所述待处理文件不为文本，则检测所述待处理文件是否为图片；

若所述待处理文件为图片，则通过光学字符识别将所述待处理文件转换为文本，得到所述待处理文本。

8.一种文本结构化装置，其特征在于，包括：

分词单元，用于对待处理文本进行分词，得到词语序列，所述词语序列中包括至少一个词语；

词性标注单元，用于对所述词语序列中的各个词语进行词性标注，得到各个词语的词性；

实体识别单元，用于对所述待处理文本进行命名实体识别，得到命名实体序列，所述命名实体序列中包括至少一个命名实体；

角色标注单元，用于对所述命名实体序列中的各个命名实体进行语义角色标注，得到语义角色标注结果；

结构化处理单元，用于根据所述词语序列、各个词语的词性、所述命名实体序列和所述语义角色标注结果，对所述待处理文本进行结构化处理，得到结构化文本。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。