CN112836498A - 数据处理方法、识别方法、装置及计算设备 - Google Patents
数据处理方法、识别方法、装置及计算设备 Download PDFInfo
- Publication number
- CN112836498A CN112836498A CN201911157158.9A CN201911157158A CN112836498A CN 112836498 A CN112836498 A CN 112836498A CN 201911157158 A CN201911157158 A CN 201911157158A CN 112836498 A CN112836498 A CN 112836498A
- Authority
- CN
- China
- Prior art keywords
- elements
- text
- nodes
- graph
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 151
- 238000000034 method Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 115
- 238000012545 processing Methods 0.000 claims description 53
- 238000010276 construction Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 101000579484 Homo sapiens Period circadian protein homolog 1 Proteins 0.000 description 3
- 101001073216 Homo sapiens Period circadian protein homolog 2 Proteins 0.000 description 3
- 101001126582 Homo sapiens Post-GPI attachment to proteins factor 3 Proteins 0.000 description 3
- 102100028293 Period circadian protein homolog 1 Human genes 0.000 description 3
- 102100035787 Period circadian protein homolog 2 Human genes 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 101100462297 Arabidopsis thaliana ORG2 gene Proteins 0.000 description 2
- 101150039239 LOC1 gene Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 101001084254 Homo sapiens Peptidyl-tRNA hydrolase 2, mitochondrial Proteins 0.000 description 1
- 101000598103 Homo sapiens Tuberoinfundibular peptide of 39 residues Proteins 0.000 description 1
- -1 ORG1 Proteins 0.000 description 1
- 102100030867 Peptidyl-tRNA hydrolase 2, mitochondrial Human genes 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本申请实施例提供一种数据处理方法、识别方法、装置及计算设备。其中,将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第一图形;利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型;利用所述文本识别模型可以识别获得待处理文本中的特征词,本申请实施例提供的技术方案提高了文本表达准确度,提高了模型训练准确度,提高了文本识别准确度。
Description
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种数据处理方法、 装置及移动终端。
背景技术
序列标注问题是自然语言处理中的常见问题,通过序列标注可以解决分 词、命名实体识别、关键词提取等问题。
所谓序列标注是指对序列中的每个元素打上标签集合中的某个类型的标 签,并进行模型训练,使得模型可以实现待处理序列中元素标签的识别。在 自然语言处理中,序列即可以是指通过对文本进行分词或者分字切分形成的 多个元素构成,序列标注问题本质上也即是文本识别问题。以命名实体识别 为例,即可以实现文本中的不同命名实体类型的命名实体词的识别。
由于序列标注问题中的标签依赖于人工标注,为了提高模型准确度,提 高文本识别准确度,可以在模型中引入外部知识,用来作为标注数据的补充, 词典是外部知识的一种,每个词典存储一个标签类型对应的词语。而如何在 模型中引入词典,以有效提高模型准确度成为目前需要解决的技术问题。
发明内容
本申请实施例提供一种数据处理方法、装置及计算设备,用以解决现有 技术中模型准确度低,文本识别准确低的技术问题。
第一方面,本申请实施例中提供了一种数据处理方法,包括:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单 字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第一图形;
利用所述第一图形以及为所述多个元素分别标注的训练标签,训练文本 识别模型。
第二方面,本申请实施例中提供了一种识别方法,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。
第三方面,本申请实施例中提供了一种数据处理方法,包括:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单 字或多字组成;
将多个不同命名实体类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第一图形;
利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识 别模型。
第四方面,本申请实施例中提供了一种识别方法,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同命名实体类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的命名实体 词。
第五方面,本申请实施例中提供了一种处理方法,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词;
基于所述特征词,进行相应处理。
第六方面,本申请实施例中提供了一种数据处理装置,包括:
第一确定模块,用于将训练文本切分获得的多个元素分别表示为节点; 其中,所述元素由单字或多字组成;
第二确定模块,用于将多个不同类型的词典分别表示为节点;
第一构建模块,用于以节点之间的关联关系表征节点之间的边,构建第 一图形;
模型训练模块,用于利用所述第一图形及为所述多个元素分别标注的训 练标签,训练文本识别模型。
第七方面,本申请实施例中提供了一种识别装置,包括:
第三确定模块,用于将待处理文本切分获得的多个元素分别表示为节点; 其中,所述元素由单字或多字组成;
第四确定模块,用于将多个不同类型的词典分别表示为节点;
第二构建模块,用于以节点之间的关联关系表征不同节点之间的边,构 建第二图形;
文本识别模块,用于基于所述第二图形利用文本识别模型识别所述待处 理文本中的特征词。
第八方面,本申请实施例中提供了一种计算设备,包括处理组件以及存 储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令 用以被所述处理组件调用执行;
所述处理组件用于:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单 字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征不同节点之间的边,构建第一图形;
利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识 别模型。
第九方面,本申请实施例中提供了一种计算设备,包括处理组件以及存 储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令 用以被所述处理组件调用执行;
所述处理组件用于:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征不同节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。
本申请实施例中,通过将训练文本切分得到的元素表示为节点,以及将 不同类型的词典表示为节点,并建立节点之间的边,构建第一图形,再利用 第一图形以及为元素标注的训练标签,训练文本识别模型,本申请实施例, 融合了词典信息,并将文本建模为图形,实现文本识别模型的训练,使得可 以提高文本表达准确度以及词典融合准确度,提高了模型训练准确度,进而 可以提高文本识别准确度。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下 面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在 不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种数据处理方法一个实施例的流程图;
图2示出了本申请实施例在一个实际应用中的图形编码过程示意图;
图3示出了本申请提供的一种识别方法一个实施例的流程图;
图4示出了本申请实施例在一个实际应用中模型训练过程示意图;
图5示出了本申请提供的一种数据处理装置一个实施例的结构示意图;
图6示出了本申请提供的一种计算设备一个实施例的结构示意图;
图7示出了本申请提供的一种识别装置一个实施例的结构示意图;
图8示出了本申请提供的一种计算设备又一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包 含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按 照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅 仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外, 这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行 执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的 消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的 类型。
本申请实施例的技术方案主要应用于自然语言处理中涉及序列标注问题 的场景中,例如分词、命名实体识别、关键词识别等等。
以命名实体识别为例,命名实体识别是信息提取、问答系统、句法分析、 机器翻译等应用领域的重要基础。命名实体识别是需要从待处理文本中识别 获得命名实体词,其中,命名实体可以包括人名、机构名、地名以及其他所 有以名称为标识的实体。此外,还可以包括数字、日期、货币、地址、百分 比等等。现有技术中,通常会将训练文本切分得到多个元素,可以利用 Word2vec(word to vector,词转换为词向量)技术,将元素表示为特征向量, 从而将训练文本建模为输入特征,将输入特征作为模型输入,将为元素标注 的训练标签作为模型输出,即可以实现模型训练。但是,这种方式,由于元 素标签依赖人工标注,仅依赖人工标注比较费时费力成本大,且不够准确, 因此,发明人想到是否可以引入外部知识,也即词典,作为标注数据的补充, 那么如何引入词典呢,发明人在研究中提出,一种方式,可以将训练文本的 N-gram(N元)分词与各个词典分别进行匹配,若某个分词命中词典,即可 以将词典位置标记为1,否则标记0,从而采用one-hot编码可以将每个分词 表示为词典特征,再将各个词的词典特征拼接在训练文本的输入特征后边, 即可以作为模型输入,而各个元素的训练标签作为模型输出,即可以实现模 型训练。但是,由于中文词义的丰富性,与各个词典相片匹配的词可能会非 常多,通常会将词典特征进行压缩之后再拼接,这种导致信息损失,因此采 用这种方式仍然无法准确表示文本,从而会影响模型训练的准确度。
为了模型训练准确度,发明人经过一系列研究提出了本申请的技术方案, 本申请实施例通过图形结构表达文本,并融合了词典信息,提高文本表达准 确度,从而可以提高模型训练准确度,提高文本识别准确度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创 造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供了一种数据处理方法一个实施例的流程图,本 实施例主要从模型训练角度对本申请技术方案进行描述。该方法可以包括以 下几个步骤:
101:将训练文本切分获得的多个元素分别表示为节点。
其中,所述元素由单字或多字组成。
其中,该多个元素可以对训练文本进行分词和/或分字处理获得。因此, 每个元素可以由单字或多字组成,若为多字,该多字为训练文本中的连续单 字组成,以形成训练文本中的词语。
102:将多个不同类型的词典分别表示为节点。
根据序列识别任务,可以创建多个不同类型的词典。比如,对于文本识 别任务,词典类型可以根据命名实体类型区分,如词典类型可以包括人名、 地名、机构名等。
可知,本申请实施例中的节点可以包括词典节点以及元素节点。
103:以节点之间的关联关系表征节点之间的边,构建第一图形。
本申请实施例,图是一种数据结构,它对一组对象(节点)及其关系(边) 进行建模获得。
通过将词典及元素表示为节点,再基于不同节点之间的关联关系,可以 确定节点之间的边,从而利用边将节点连接起来,形成图数据结构,本申请 实施例中为了便于描述和区别,命名为第一图形。
可选地,节点之间的关联关系可以根据元素之间的上下文关系以及元素 与词典之间的匹配关系确定,因此,所述以节点之间的关联关系表征节点之 间的边,构建第一图形可以包括:
基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系, 确定不同节点之间的边;
基于不同节点之间的边,构建第一图形。
上下文关系可以是指两个元素在训练文本中是否相邻,若是,则具有上 下文关系,比如训练文本为“我喜欢吃蛋糕”,其中单字“喜”以及“欢” 即具有上下文信息。
作为一种可选方式,词典与元素之间的匹配关系,可以是指词典和与其 匹配的匹配词语的各个元素具有匹配关系,其中,与词典匹配的匹配词语可 以是指词典中包括该词语。比如训练文本为“张三在北京人民公园”,其中, “人民公园”命中某个词典,则元素“人”、“民”、“公”以及“园”均 与该词典具有匹配关系。
作为另一种可选方式,词典与元素之间的匹配关系,可以是指词典是与 其匹配的匹配词语的首个元素以及末尾元素具有匹配关系。
其中,与词典匹配的匹配词语中的各个元素之间也具有匹配关系,比如 仍以训练文本为“张三在北京人民公园”为例,其中,“人民公园”命中某 个词典,则元素“人”、以及“园”均与该词典具有匹配关系。元素“人” 与元素“民”、元素“民”与元素“公”、元素“公”以及元素“园”不仅 具有上下文关系,还具有匹配关系。
因此,可选地,基于不同元素之间的上下文关系及不同元素与不同词典 之间的匹配关系,确定不同节点之间的边可以是:
基于不同元素之间的上下文关系或者匹配关系,确定不同元素对应节点 之间的边;
基于不同元素与不同词典之间的匹配关系,建立元素对应节点与词典对 应节点之间的边。
在一种可能的实现方式中,每个词典可以采用两个节点表示,分别表示 匹配开始以及匹配结束,为了方便描述,可以分别用第一节点以及第二节点 进行表述代表词典的两个节点。因此,在某些实施例中,所述将多个不同类 型的词典分别表示为节点包括:
将多个不同类型的词典分别表示为第一节点及第二节点;其中,所述第 一节点表示与元素匹配开始,所述第二节点表示与元素匹配结束。
其中,第一节点以及第二节点可以均与词典匹配的匹配词语中的各个词 语之间具有匹配关系,也可以是第一节点,也即表示匹配开始的节点,仅与 匹配词语中的首个元素具有匹配关系,而第二节点仅与匹配词语中的末尾元 素具有匹配关系。
此外,该第一图形可以为无向图,也可以为有向图。
若第一图形为有向图,也即节点之间的边具有方向,对于具有上下文关 系的节点,边方向可以是上文元素对应节点(后续描述中也多以上文节点表 述)指向下文元素对应节点(后续描述中也多以下文节点表述),对于具有 匹配关系的节点,边方向可以包括词典对应节点(后续描述中也多以词典节 点表述)指向元素对应节点(后续描述中也多以元素节点表述)、以及上文 节点指向下文节点。
若每个词典可以采用两个节点表示,分别表示匹配开始以及匹配结束, 则第一节点,即表示匹配开始的节点与元素节点之间的边方向可以是第一节 点指向元素节点;第二节点,即表示匹配结束的节点与元素节点之间的边方 向可以是元素节点指第二节点。
104:利用所述第一图形及为所述多个元素分别标注的训练标签,训练文 本识别模型。
该文本识别模型可以包括图神经网络,从而可以实现对第一图形进行编 码获得该多个元素的特征向量。图神经网络可以跟随文本识别模型的训练而 实现训练,获得图神经网络的参数。
当然,也可以通过独立的图神经模型对第一图形编码获得多个元素的特 征向量,再基于该多个元素的特征向量以及所述多个元素分别标注的训练标 签,训练文本识别模型。图神经模型可以通过样本图形以及样本特征向量训 练获得等。
从而利用所述文本识别模型可以识别获得待处理文本中属于不同标签类 型的特征词。
本实施例中,通过图形结构表达文本,并融合了词典信息,提高文本表 达准确度,从而可以提高模型训练准确度,提高文本识别准确度。
在某些实施例中,所述利用所述第一图形及所述多个元素分别标注的训 练标签,训练文本识别模型可以包括:
将所述第一图形输入文本识别模型,经由所述文本识别模型进行编码获 得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签, 训练所述文本识别模型。
所述文本识别模型可以具体用于基于待处理文本建立的第二图形,对所 述待处理文本进行识别以确定所述待处理文本中的特征词。
在某些实施例中,所述基于所述多个元素的特征向量以及所述多个元素 分别标注的标签,训练所述文本识别模型包括:
将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果, 并基于所述多个元素的特征向量,训练所述文本识别模型。
其中,文本识别模型可以为神经网络模型,由上文描述可知,文本识别 模型可以包括图神经网络,图神经网络可以作为文本识别模型的输入层。因 此,在某些实施例中,所述文本识别模型可以包括图形编码网络及文本识别 网络;
所述将所述第一图形输入文本识别模型,经由所述文本识别模型进行编 码获得所述多个元素的特征向量包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码 网络对所述第一图形进行编码以获得所述多个元素的特征向量;
所述将所述多个元素分别标注的训练标签作为所述文本识别模型的输出 结果,并并基于所述多个元素的特征向量,训练所述文本识别模型包括:
将所述多个元素的特征向量作为所述文本识别网络的输入数据,所述为 所述多个元素分别标注的训练标签作为所述识别网络的输出结果,训练所述 文本识别模型,以获得所述图形编码网络的模型参数以及所述文本识别网络 的模型参数。
其中,图神经网络可以采用GCN(Graph Convolutional Neural Network、 图卷积神经网络)或者GGNN(Gated Graph Sequence Neural Networks,门控 神经网络)等实现,文本识别网络可以采用LSTM(Long Short-Term Memory, 长短期记忆网络)+CRF(conditional random field algorithm,条件随机场)实 现。
其中,图神经网络可以是对第一图形中的各个节点分别进行编码,为了 进一步提高元素特征向量的准确度,可以进行重复编码操作。因此,在某些 实施例中,将所述第一图形作为所述文本识别模型的输入数据,经由所述图 形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量可以 包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码 网络结合每个节点相邻的各个节点的当前编码向量,对每个节点进行多次重 复编码操作;其中,基于各节点的初始向量进行各节点的第一次编码操作;
将最后一次编码获得的所述多个元素对应节点的编码向量,分别作为所 述多个元素的特征向量。
其中,基于各个节点的初始向量进行各个节点的第一次编码操作;对于 元素节点的初始向量,可以是指词向量或字向量,可以通过Word2vec(word to vector,词转换为词向量)或者skip-gram(一种词向量转换模型)模型等 技术转换获得,与现有技术相同,在此将不再过多赘述。对于词典节点的初 始向量可以随机设置。
其中,对每个节点进行多次重复编码操作,每一次编码操作均基于每个 节点相邻的各个节点的当前编码向量实现,从而可以使得每个节点编码的编 码向量可以包含更多信息。每一次编码操作,每个节点既接受相邻节点的信 息,又向相邻节点发送信息。
其中,重复编码次数可以结合实际应用情况进行预先设定。最后一次编 码获得的元素节点的编码向量,即可以作为元素的特征向量。
为了方便理解图形编码过程,现举例说明,如图2中所示,示出了第一 图形的示意图,假设该第一图形包括六个节点:A、B、C、D、E、F,该六 个节点根据彼此之间的关联关系相连接形成节点之间的边。每个节点具有初 始向量,对于元素节点,初始向量可以是Word2vec向量。对于词典节点,可 以任意设置。
利用图神经网络可以计算每个节点的编码向量,例如,对于图2中,节 点A和节点B、C、D相邻,那么节点A的编码向量具体可以结合节点B、C 以及D的初始向量计算而来。为了可以使得编码向量包含更多信息,例如可 以将相隔较远的节点信息编码至节点A,因此可以通过重复编码操作的方式, 也就是说,由A、B、C、D四个节点的初始向量计算可得节点A的第一次编 码向量,在重复编码操作时,利用节点A、B、C、D第一次图编码向量计算 可得节点A的第二次编码向量,由于节点C的第一次编码向量含有节点E以 及节点F的信息,所以节点A的第二次编码向量也就含有了E、F的信息。 如图2中所示,节点B的第一次编码向量中包含了节点A、C的信息,节点 C的第一次编码向量中包含节点A、B、E、F的信息;节点D的第一次编码 向量中包含节点A的信息,对于节点A进行第二次编码时,由于需要结合节 点B、C以及D的第一次编码向量计算获得,而节点C的第一次编码向量中 包含E以及节点F的信息,因此节点A的第二次编码向量也就含有了E、F 的信息。
其中,重复编码次数可以结合实际任务设定,通常可以不超过4次。
在一个实际应用中,利用图神经网络对节点进行编码获得编码向量时, 可以按照以下公式实现:
其中,H表示|V|个节点第t-1次的编码向量构成的矩阵,t为大于等于1 的整数;表示第v个节点第t次编码获得的编码向量;Wl表示边的权重参 数;为更新因子,用于控制遗忘信息,表示选择记住哪些新产生信息;为 调整因子,控制新产生的信息,决定从哪些过去的信息中产生新信息;为 临界矩阵参数;表示选择遗忘哪些过去的信息;表示新产生的 信息,即表示最终节点状态,也即编码向量,此外,公式中其它参量均为 模型参数。
由上文描述可知,每个词典可以采用两个节点进行表示,分别表示匹配 开始以及匹配结束,因此,在某些实施例中,所述将多个不同类型的词典分 别表示为节点包括:
将多个不同类型的词典分别表示为第一节点及第二节点;其中,所述第 一节点表示与元素匹配开始,所述第二节点表示与元素匹配结束。
其中,每个词典的第一节点可以具体与其匹配词语的首个元素具有匹配 关系,第二节点具体与其匹配词语的末尾元素具有匹配关系。
例如,训练文案通过分字获得多个元素,每个元素由单字组成,假设词 语“人民公园”命中某个词典,则该词典对应的第一节点与元素“人”节点 具有匹配关系,第二节点与元素“园”节点具有匹配关系,而元素“人”与 元素“民”、元素“民”与元素“公”、元素“公”与元素“园”分别具有 上下文关系以及匹配关系。在第一图形为有向图时,第一节点与元素节点之 间的边方向可以是第一节点指向元素节点,第二节点与元素节点之间的边方 向可以是元素节点指向第二节点。例如,第一节点指向元素“人”节点,元 素“园”节点指向第二节点、对于具有上下文关系以及匹配关系的节点,由 上文节点指向下文节点,如元素“人”节点指向元素“民”节点。也即元素 节点之间可能存在两条边。
当然,本领域技术人员可以理解的是,词典对应的节点表示方式、文本 对应的节点表示方式并不仅限于本申请实施例中所述方式,任何可以表示词 典以及任何可以表示文本的节点表示方式均应落在本申请的保护范围内。
其中,在一个实际应用中,训练文本切分得到的元素可以由单字构成, 也即对训练文本进行分字获得,则各个元素的训练标签可以按照如下方式设 定。在某些实施例中,所述利用所述第一图形及所述多个元素分别标注的训 练标签,训练文本识别模型可以包括:
针对每个单字,根据所述单字构成的特征词的标签类型,以及所述单字 为其构成的特征词中的开始字、中间字、结束字、单字或不属于任意标签类 型的组成字,设置每个单字的训练标签;
利用所述第一图形及各个单字的训练标签,训练文本识别模型。
在某些实施例中,训练标签中还可以加入位置信息,因此,针对每个单 字,根据所述单字构成的特征词的标签类型,以及所述单字为其构成的特征 词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字,设 置每个单字的训练标签可以包括:
针对每个单字,根据所述单字在所述训练文本中的文本位置、所述单字 构成的特征词的标签类型及所述单字为其构成的特征词中的开始字、中间字、 结束字、单字或不属于任意标签类型的组成字,设置每个单字的训练标签。
其中,单字为其构成的特征词中的开始字、中间字、结束字或单字是指: 比如特征词为“火车站”,“火”即为开始字、“车”为中间字、“站”为 结束字。当然,若特征词只有两个字,则这两个字分别为开始字和结束字; 若特征词只有一个字,其即为单字。
若训练文本中的某个字不构成任意特征词,其基于不属于任意标签类型 的组成字。
需要说明的是,本申请实施例中的特征词是指序列标注任务中需要识别 的属于某个标签类型的特定词语,比如特征词可以是命名实体词,标签类型 即为命名实体类型。
为了方便进行标签标注,可以采用字母B、E、I、S,分别代表开始字、 结束字、中间字、单字,如果存在6种标签类型,6种标签类型也可以采用 不同标识符号表示,则基于6种标签类型以及开始字、结束字、中间字、单 字,可以设置24个标签,对于不属于任意标签类型的组成字可以利用标签O 表示,即总共25个标签。
例如,在命名实体识别场景中,假设包括时间(符号TIME表示)、地 点(符号LOC表示)、人名(符号PER表示)、机构(符号ORG表示)四 个命名实体类型,如训练文本“张三在人民公园”,其中,张三为人名,人 民公园为地点,在不属于任意命名实体类型,则“张三在人民公园”对应的 标签序列即可以为“B-PER、E-PER、O、B-LOC、I-LOC、I-LOC、E-LOC”。
在某些实施例中,所述利用所述第一图形及所述多个元素分别标注的训 练标签,训练文本识别模型可以包括:
对所述第一图形进行编码,获得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签, 训练文本识别模型。
其中,对所述第一图形进行编码可以通过独立的图神经网络模型实现, 该图神经网络模型可以基于样本图形以及样本向量训练获得。
图3为本申请实施例提供的一种识别方法一个实施例的流程图,本实施 例主要从文本识别角度对本申请技术方案进行描述。该方法可以包括以下几 个步骤:
301:将待处理文本切分获得的多个元素分别表示为节点。
其中,所述元素由单字或多字组成。
该多个元素可以对待处理文本进行分词或者分字处理获得。
302:将多个不同类型的词典分别表示为节点。
303:以节点之间的关联关系表征节点之间的边,构建第二图形。
其中,不同节点之间的关联关系可以包括元素之间的上下文关系以及元 素与词典之间的匹配关系。
其中,上下文关系可以是指两个元素在训练文本中是否相邻,元素与词 典之间的匹配关系可以是指,若某个元素或者某个元素与其它元素组成的词 语,命中某个词典,也即某个词典中包含某个元素或者某个元素与其它至少 一个元素组成的词语,则即可以表示元素与词典之间存在匹配关系。
其中,该第二图形可以为无向图,也可以为有向图,若第一图形为有向 图,也即节点之间的边具有方向,对于具有上下文关系的节点,边方向可以 是上文节点指向下文节点,对于具有匹配关系的节点,边方向可以是词典节 点指向元素节点。
在一个实际应用中,每个词典可以采用两个节点表示,分别表示匹配开 始以及匹配结束,表示匹配开始的节点与其匹配词语的首个元素具有匹配关 系,表示匹配结束的节点与其匹配词语的末尾元素具有匹配关系,表示匹配 开始的节点与元素节点之间的边方向可以是表示匹配开始的节点指向元素节 点,表示匹配结束的节点与元素节点之间的边方向可以是元素节点指向表示 匹配结束的节点。
其中,第二图形构建方式与第一图形构建方式相同,仅是针对不同文本, 详细可以参见图1所示实施例中所述。
304:基于所述第二图形利用文本识别模型识别所述待处理文本中的特征 词。
其中,该文本识别模型的具体训练方式可以参见上述各个实施例的数据 处理方法中所述,在此将不再重复赘述。
本实施例中,通过图形结构表达文本,并融合了词典信息,提高文本表 达准确度,提高了文本识别准确度。
在某些实施例中,所述基于所述第二图形利用文本识别模型识别所述待 处理文本中的特征词可以包括:
基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元 素分别对应的标签;
基于所述多个元素分别对应的标签,确定所述待处理文本中的特征词。
例如,元素为单字构成时,结合上文描述可知,可以设置25个标签,由 于标签代表了单字所属的标签类型以及位于其构成的特征词中的开始字、中 间字、结束字或者单字等,因此,基于不同单字的标签,即可以得到待处理 文本中的特征词。
其中,待处理文本中可以包括至少一个特征词。
在某些实施例中,所述基于所述第二图形利用文本识别模型识别所述待 处理文本中所述多个元素分别对应的标签包括:
将所述第二图形输入所述文本识别模型,由所述文本识别模型对所述第 二图形进行编码获得所述多个元素的特征向量;
基于所述多个元素的特征向量,识别所述多个元素分别对应的标签。
其中,结合上文描述可知,所述文本识别模型可以包括图形编码网络及 文本识别网络;因此,在某些实施例中,所述将所述第二图形输入所述文本 识别模型,由所述文本识别模型对所述第二图形进行编码获得所述多个元素 的特征向量可以包括:
将所述第二图形输入所述文本识别模型,由所述图形编码网络将所述第 二图形进行编码获得所述多个元素的特征向量;
所述基于所述多个元素的特征向量,识别所述多个元素分别对应的标签 可以包括:
基于所述多个元素的特征向量,利用所述文本识别网络识别所述多个元 素分别对应的标签。
其中,所述将所述第二图形输入所述文本识别模型,由所述图形编码网 络将所述第二图形进行编码获得所述多个元素的特征向量可以包括:
将所述第二图形输入所述文本识别模型,利用图形编码网络具体是结合 每个节点相邻的各节点的当前编码向量,对每个节点进行多次重复编码操作; 其中,基于各节点的初始向量进行各节点的第一次编码操作;
将最后一次编码获得的所述多个元素对应节点的编码向量,分别作为所 述多个元素的特征向量。
在某些实施例中,所述基于不同节点之间的关联关系建立不同节点之间 的边,以构建第二图形可以包括:
基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系, 建立不同节点之间的边,以构建第二图形。
在某些实施例中,所述将多个不同类型的词典分别表示为节点可以包括:
将多个不同类型的词典分别表示为第一节点及第二节点;其中,所述第 一节点表示与元素匹配开始,所述第二节点表示与元素匹配结束。
其中,每个词典的第一节点具体与其匹配词语的首个元素具有匹配关系, 第二节点具体与其匹配词语的末尾元素具有匹配关系。
在一个实际应用中,本申请实施例的技术方案具体可以应用于命名实体 识别场景中。词典类型具体根据命名实体类型划分,因此可以将多个不同命 名实体类型的词典分别表示为节点。
因此,在命名实体识别场景中,本申请实施例还提供了一种数据处理方 法,可以包括:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单 字或多字组成;
将多个不同命名实体类型的词典分别表示为节点;
基于不同节点之间的关联关系建立不同节点之间的边,以构建第一图形;
利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识 别模型。
本申请实施例还提供了一种识别方法,可以包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同命名实体类型的词典分别表示为节点;
基于不同节点之间的关联关系建立不同节点之间的边,以构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的命名实体 词。
为了便于理解,现举例说明,假设训练文本为“张三在北京人民公园”, 可以对该训练文本进行分字处理获得多个单字,如图4中所述,假设该多个 单字分别表示为节点c1、c2、c3……,也该训练文本各个单字可以分别表示 为:张(c1)、三(c2)、在(c3)、北(c4)、京(c5)、人(c6)、民(c7)、 公(c8)、园(c9)。其中,相邻单字之间具有上下文关系,因此可以基于 各个单字的上下文关系,确定各个单字节点的边,例如,c1与c2具有上下文 关系、c2与c3具有上下文关系等等。
假设存在4个命名实体类型(地名、机构、人名及其它实体,分别以LOC、ORG、PER、及OTH表示)的词典。在一个实际应用中,每个词典可以用两 个节点表示,因此可以获得8个词典节点,分别表示为节点LOC1、LOC2、 ORG1、ORG2、PER1、PER2、OTH1及PTH2。其中,LOC1、ORG1、PER1、 及OTH1分别表示匹配开始的节点,LOC2、ORG2、PER2、及OTH2分别表 示匹配结束的节点。
其中,表示匹配开始的节点具体与其匹配词语的首个单字具有匹配关系, 表示匹配结束的节点具体与其匹配词语的末尾单字具有匹配关系。且命中词 典的匹配词语中各个单字中的相邻单字之间也具有匹配关系。例如,“张三” 命中人名词典,则PER1与c1具有匹配关系,PER2与c2具有匹配关系,c1 以及c2之间具有匹配关系。
假设“张三”以及“张三在”命中词典PER,“北京人”命中词典OTH、 “北京”命中词典ORG以词典LOC、“人民公园”命中词典LOC,具体边 关系可以参见图4中所示的第一图形401,虚线表示匹配关系,实线表示上 下文关系。
第一图形为有向图时,边方向可以具体如图4中第一图形401中的箭头 所指,总体为上文节点指向下文节点、表示匹配开始的节点指向单字节点、 以及单字节点指向表示匹配结束的节点。
构建获得第一图形之后,各个单字的训练标签,可以根据每个单字构成 的命名实体词的命名实体类型,以及所述单字为其构成的命名实体词中的开 始字、中间字、结束字、单字或不属于任意命名实体类型的组成字,设置每 个单字的训练标签。
从而,第一图形以及各个单字的训练标签,即可以训练文本识别模型。
其中,文本识别模型可以由图神经网络402以及文本识别网络构成,在 实际应用中,文本识别网络可以由LSTM网络403以及CRF网络404构成。
从而第一图形输入图神经网络402,经由图神经网络402进行编码,获 得各个单字对应的特征向量;
将各个单字的特征向量作为文本识别模型的输入数据,各个单字的训练 标签作为输出数据,即可以实现文本识别模型的训练,经由大量训练样本进 行训练,即可以获得图形编码网络的模型参数以及所述文本识别网络的模型 参数。
从而,利用获得文本识别模型即可以对待处理文本进行命名实体识别, 以确定待处理文本中各个单字所属标签,基于各个单字所属标签,即可以确 定待处理文本中的命名实体词。
在实际应用中,存在很多场景需要识别获得待处理文本中的特征词,特 别是特征词为命名实体词时,在信息提取、问答系统、句法分析、机器翻译 等应用场景下,都需要首先进行命名实体识别。
因此,本申请实施例还提供了一种处理方法,可以包括如下几个步骤:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词;
基于所述特征词,进行相应处理。
作为一种可选方式,所述特征词可以是指口语化词,通过识别待处理文 本中的口语化词,可以消除待处理文本的口语化错误,以获得规范文本。因 此,所述基于所述特征词,进行相应处理可以包括:
从所述待处理文本中消除所述口语化词,获得规范文本。
其中,消除所述口语化词可以是指从待处理文本中删除所述口语化词等。
此外,所述特征词可以是指命名实体词,在命名实体识别场景中,基于 识别获得的命名实体词可以多种应用。作为另一种可选方式,所述基于所述 特征词,进行相应处理可以包括:
根据所述命名实体词以及所述命名实体词的命名实体类型,对所述待处 理文本进行信息抽取,获得结构化文本。
由于文本识别模块基于不同命名实体类型的词典训练获得,训练标签中 包括命名实体类型,因此通过文本识别模块可以获得命名实体类型。从而根 据所述命名实体词以及所述命名实体词的命名实体类型,可以对所述待处理 文本进行信息抽取,获得结构化文本。
其中,信息抽取的具体实现方式与现有技术相同,只是命名实体词的识 别可以按照本申请实施例的技术方案进行,因此对于结构化文本的获得本申 请在此将不再重复赘述。
将待处理文本进行结构化,可以适用于庭审场景中对起诉书等庭审文本 进行标准化等。对庭审文本等可以通过命名实体识别确定特定的法律术语、 被告名称、原告名称等等。
作为又一种可选方式,所述将待处理文本切分获得的多个元素分别表示 为节点之前,所述方法还包括:
获取用户输入的所述待处理文本;
所述基于所述特征词,进行相应处理包括:
基于所述命名实体词进行对象搜索,获得搜索结果;
将所述搜索结果提供给所述用户。比如在电商场景中,通过命名实体识 别可以查找商品名称,识别获得的命名实体词也即为商品名称,进而基于商 品名称可以查找商品,搜索结果可以是包括商品搜索结果页面。
此外,待处理文本可以是指通过语音识别技术转换获得的语音识别文本, 因此通过识别语音识别文本中的特征词,可以对语音识别文本进行检测,实 现对语音识别文本的校正等。因此,作为又一种可选方式,所述基于所述特 征词,进行相应处理可以包括:
对所述特征词进行校验,并基于校验结果校正所述语音识别文本。
其中,可以是结合特征词类型,对所述特征词进行校验,并基于校验结 果校正所述语音识别文本,比如特征词为口语化词时,可以从语音识别文本 中消除该口语化词,特征词为命名实体词时,可以结合命名实体类型对应的 词库查找是否特征词在该词库中,若否,则可以提示用户校正语音识别文本 等。
图5为本申请提供的一种数据处理装置一个实施例的结构示意图,该装 置可以包括:
第一确定模块501,用于将训练文本切分获得的多个元素分别表示为节 点;其中,所述元素由单字或多字组成;
第二确定模块502,用于将多个不同类型的词典分别表示为节点;
第一构建模块503,用于以节点之间的关联关系表征节点之间的边,构 建第一图形;
模型训练模块504,用于利用所述第一图形及为所述多个元素分别标注 的训练标签,训练文本识别模型。
在某些实施例中,所述模型训练模块具体用于将所述第一图形输入文本 识别模型,经由所述文本识别模型进行编码获得所述多个元素的特征向量; 基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签,训练 所述文本识别模型。
其中,该文本识别模型可以用于基于待处理文本建立的第二图形,对所 述待处理文本进行识别以确定所述待处理文本中的特征词。
在某些实施例中,所述模型训练模块基于所述多个元素的特征向量以及 所述多个元素分别标注的训练标签,训练所述文本识别模型包括将所述多个 元素分别标注的训练标签作为所述文本识别模型的输出结果,并基于所述多 个元素的特征向量,训练所述文本识别模型。
在某些实施例中,所述文本识别模型包括图形编码网络及文本识别网络;
所述模型训练模块将所述第一图形输入文本识别模型,经由所述文本识 别模型进行编码获得所述多个元素的特征向量包括:将所述第一图形作为所 述文本识别模型的输入数据,经由所述图形编码网络对所述第一图形进行编 码以获得所述多个元素的特征向量;
所述模型训练模块将所述多个元素分别标注的训练标签作为所述文本识 别模型的输出结果,并基于所述多个元素的特征向量,训练所述文本识别模 型包括:将所述多个元素的特征向量作为所述文本识别网络的输入数据,所 述为所述多个元素分别标注的训练标签作为所述文本识别网络的输出结果, 训练所述文本识别模型,以获得所述图形编码网络的模型参数以及所述文本 识别网络的模型参数。
在某些实施例中,所述模型训练模块将所述第一图形作为所述文本识别 模型的输入数据,经由所述图形编码网络型对所述第一图形进行编码以获得 所述多个元素的特征向量包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码 网络结合每个节点相邻的各节点的当前编码向量,对每个节点进行多次重复 编码操作;其中,基于各节点的初始向量进行各节点的第一次编码操作;
将最后一次编码获得的所述多个元素对应节点的编码向量,分别作为所 述多个元素的特征向量。
在某些实施例中,所述第一构建模块具体用于基于不同元素之间的上下 文关系及不同元素与不同词典之间的匹配关系,确定不同节点之间的边;基 于不同节点之间的边,构建第一图形。
在某些实施例中,所述第二确定模块具体用于将多个不同类型的词典分 别表示为第一节点及第二节点;其中,所述第一节点表示与元素匹配开始, 所述第二节点表示与元素匹配结束。
在某些实施例中,所述元素由单字组成;
所述模型训练模块具体用于针对每个单字,根据所述单字构成的特征词 的标签类型,以及所述单字为所述特征词中的开始字、中间字、结束字、单 字或不属于任意标签类型的组成字,设置每个单字的训练标签;
利用所述第一图形及各个单字的训练标签,训练文本识别模型。
在某些实施例中,所述模型训练模块具体用于对所述第一图形进行编码, 获得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签, 训练文本识别模型。
在一个实际应用中,本申请技术方案可以应用于命名实体识别场景中, 在命名实体识别场景中:
所述第一确定模块具体用于将训练文本切分获得的多个元素分别表示为 节点;其中,所述元素由单字或多字组成;
所述第二确定模块具体用于将多个不同命名实体类型的词典分别表示为 节点。
图5所述的数据处理装置可以执行图1所示实施例所述的数据处理方法, 其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各 个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细 描述,此处将不做详细阐述说明。
在一个可能的设计中,图5所示实施例的数据处理装置可以实现为计算 设备,如图6所示,该计算设备可以包括存储组件601以及处理组件602;
所述存储组件601存储一条或多条计算机指令,其中,所述一条或多条 计算机指令供所述处理组件602调用执行。
所述处理组件602用于:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单 字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第一图形;
利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识 别模型。
其中,处理组件602可以包括一个或多个处理器来执行计算机指令, 以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多 个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理 设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、 控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件601被配置为存储各种类型的数据以支持在计算设备中的操 作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组 合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器 (EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储 器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光 盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组 件等。输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接 口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其 他设备之间有线或无线方式的通信等。
其中,该计算设备可以为物理设备或者云计算平台提供的弹性计算主机 等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是 从云计算平台租用或购买的基础服务器资源。因此,如在本文所使用的,“计 算设备”可以是指远程web服务器、服务器、计算机联网设备、芯片组、台 式计算机、笔记本式计算机、工作站,或任何其他处理设备或者装备。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序, 所述计算机程序被计算机执行时可以实现上述图1所示实施例的数据处理 方法。
图7为本申请实施例提供的一种识别装置一个实施例的结构示意图,该 装置可以包括:
第三确定模块701,用于将待处理文本切分获得的多个元素分别表示为 节点;其中,所述元素由单字或多字组成;
第四确定模块702,用于将多个不同类型的词典分别表示为节点;
第二构建模块703,用于以节点之间的关联关系表征节点之间的边,构 建第二图形;
文本识别模块704,用于基于所述第二图形利用文本识别模型识别所述 待处理文本中的特征词。
在某些实施例中,所述文本识别模块具体用于基于所述第二图形利用文 本识别模型识别所述待处理文本中所述多个元素分别对应的标签;
基于所述多个元素分别对应的标签,确定所述待处理文本中的特征词。
在某些实施例中,所述文本识别模块基于所述第二图形利用文本识别模 型识别所述待处理文本中所述多个元素分别对应的标签具体是:
将所述第二图形输入所述文本识别模型,由所述文本识别模型对所述第 二图形进行编码获得所述多个元素的特征向量;基于所述多个元素的特征向 量,识别所述多个元素分别对应的标签。
在某些实施例中,所述文本识别模型包括图形编码网络及文本识别网络;
所述文本识别模块将所述第二图形输入所述文本识别模型,由所述文本 识别模型对所述第二图形进行编码获得所述多个元素的特征向量;基于所述 多个元素的特征向量,识别所述多个元素分别对应的标签包括:
将所述第二图形输入所述文本识别模型,由所述图形编码网络将所述第 二图形进行编码获得所述多个元素的特征向量;基于所述多个元素的特征向 量,利用所述文本识别网络识别所述多个元素分别对应的标签。
在一个实际应用中,本申请技术方案可以应用于命名实体识别场景中, 在命名实体识别场景中:
所述第三确定模块具体用于将待处理文本切分获得的多个元素分别表示 为节点;其中,所述元素由单字或多字组成;
所述第四确定模块具体用于将多个不同命名实体类型的词典分别表示为 节点;
所述第二构建模块具体用于以节点之间的关联关系表征节点之间的边, 构建第二图形;
所述文本识别模块具体用于基于所述第二图形利用文本识别模型识别所 述待处理文本中的命名实体词。
图7所述的识别装置可以执行图3所示实施例所述的识别方法,其实现 原理和技术效果不再赘述。对于上述实施例中的识别装置其中各个模块、单 元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处 将不做详细阐述说明。
在一个可能的设计中,图7所示实施例的识别装置可以实现为计算设备, 如图8所示,该计算设备可以包括存储组件801以及处理组件802;
所述存储组件801存储一条或多条计算机指令,其中,所述一条或多条 计算机指令供所述处理组件802调用执行。
所述处理组件802用于:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由 单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。
其中,处理组件802可以包括一个或多个处理器来执行计算机指令, 以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多 个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理 设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、 控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件801被配置为存储各种类型的数据以支持在计算设备中的操 作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组 合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器 (EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储 器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光 盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组 件等。输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接 口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其 他设备之间有线或无线方式的通信等。
其中,该计算设备可以为物理设备或者云计算平台提供的弹性计算主机 等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是 从云计算平台租用或购买的基础服务器资源。因此,如在本文所使用的,“计 算设备”可以是指远程web服务器、服务器、计算机联网设备、芯片组、台 式计算机、笔记本式计算机、工作站,或任何其他处理设备或者装备。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序, 所述计算机程序被计算机执行时可以实现上述图1所示实施例的数据处理 方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明 的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或 者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络 单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例 方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以 理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实 施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部 分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可 读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台 计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施 例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其 限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (25)
1.一种数据处理方法,其特征在于,包括:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第一图形;
利用所述第一图形以及为所述多个元素分别标注的训练标签,训练文本识别模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一图形及所述多个元素分别标注的训练标签,训练文本识别模型包括:
将所述第一图形输入文本识别模型,经由所述文本识别模型进行编码获得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签,训练所述文本识别模型。
3.根据权利要求2所述的方法,其特征在于,所述文本识别模型用于基于待处理文本建立的第二图形,对所述待处理文本进行识别以确定所述待处理文本中的特征词。
4.根据权利要求2所述的方法,其特征在于,所述基于所述多个元素的特征向量以及所述多个元素分别标注的标签,训练所述文本识别模型包括:
将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果,并并基于所述多个元素的特征向量,训练所述文本识别模型。
5.根据权利要求4所述的方法,其特征在于,所述文本识别模型包括图形编码网络及文本识别网络;
所述将所述第一图形输入文本识别模型,经由所述文本识别模型进行编码获得所述多个元素的特征向量包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码网络对所述第一图形进行编码以获得所述多个元素的特征向量;
所述将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果,并基于所述多个元素的特征向量,训练所述文本识别模型包括:
将所述多个元素的特征向量作为所述文本识别网络的输入数据,所述为所述多个元素分别标注的训练标签作为所述文本识别网络的输出结果,训练所述文本识别模型的训练,以获得所述图形编码网络的模型参数以及所述文本识别网络的模型参数。
6.根据权利要求5所述的方法,其特征在于,将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码网络结合每个节点相邻的各节点的当前编码向量,对每个节点进行多次重复编码操作;其中,基于各节点的初始向量进行各节点的第一次编码操作;
将最后一次编码获得的所述多个元素对应节点的编码向量,分别作为所述多个元素的特征向量。
7.根据权利要求1所述的方法,其特征在于,所述以节点之间的关联关系表征节点之间的边,构建第一图形包括:
基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系,确定不同节点之间的边;
基于不同节点之间的边,构建第一图形。
8.根据权利要求1所述的方法,其特征在于,所述将多个不同类型的词典分别表示为节点包括:
将多个不同类型的词典分别表示为第一节点及第二节点;其中,所述第一节点表示与元素匹配开始,所述第二节点表示与元素匹配结束。
9.根据权利要求1所述的方法,其特征在于,所述元素由单字组成;
所述利用所述第一图形及所述多个元素分别标注的训练标签,训练文本识别模型包括:
针对每个单字,根据所述单字构成的特征词的标签类型,以及所述单字为所述特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字,设置每个单字的训练标签;
利用所述第一图形及各个单字的训练标签,训练文本识别模型。
10.根据权利要求1所述的方法,其特征在于,所述利用所述第一图形及所述多个元素分别标注的训练标签,训练文本识别模型包括:
对所述第一图形进行编码,获得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签,训练文本识别模型。
11.一种识别方法,其特征在于,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。
12.根据权利要求11所述的方法,其特征在于,所述基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词包括:
基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签;
基于所述多个元素分别对应的标签,确定所述待处理文本中的特征词。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签包括:
将所述第二图形输入所述文本识别模型,由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量;
基于所述多个元素的特征向量,识别所述多个元素分别对应的标签。
14.根据权利要求13所述的方法,其特征在于,所述文本识别模型包括图形编码网络及文本识别网络;
所述将所述第二图形输入所述文本识别模型,由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量包括:
将所述第二图形输入所述文本识别模型,由所述图形编码网络将所述第二图形进行编码获得所述多个元素的特征向量;
所述基于所述多个元素的特征向量,识别所述多个元素分别对应的标签包括:
基于所述多个元素的特征向量,利用所述文本识别网络识别所述多个元素分别对应的标签。
15.一种数据处理方法,其特征在于,包括:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同命名实体类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第一图形;
利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型。
16.一种识别方法,其特征在于,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同命名实体类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的命名实体词。
17.一种处理方法,其特征在于,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词;
基于所述特征词,进行相应处理。
18.根据权利要求17所述的方法,其特征在于,所述特征词为口语化词;所述基于所述特征词,进行相应处理包括:
从所述待处理文本中消除所述口语化词,获得规范文本。
19.根据权利要求17所述的方法,其特征在于,所述特征词为命名实体词;所述基于所述特征词,进行相应处理包括:
根据所述命名实体词以及所述命名实体词的命名实体类型,对所述待处理文本进行信息抽取,获得结构化文本。
20.根据权利要求17所述的方法,其特征在于,所述特征词为命名实体词;所述将待处理文本切分获得的多个元素分别表示为节点之前,所述方法还包括:
获取用户输入的所述待处理文本;
所述基于所述特征词,进行相应处理包括:
基于所述命名实体词进行对象搜索,获得搜索结果;
将所述搜索结果提供给所述用户。
21.根据权利要求17所述的方法,其特征在于,所述待处理文本为语音识别文本;
所述基于所述特征词,进行相应处理包括:
对所述特征词进行校验,并基于校验结果校正所述语音识别文本。
22.一种数据处理装置,其特征在于,包括:
第一确定模块,用于将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
第二确定模块,用于将多个不同类型的词典分别表示为节点;
第一构建模块,用于以节点之间的关联关系表征节点之间的边,构建第一图形;
模型训练模块,用于利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型。
23.一种识别装置,其特征在于,包括:
第三确定模块,用于将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
第四确定模块,用于将多个不同类型的词典分别表示为节点;
第二构建模块,用于以节点之间的关联关系表征不同节点之间的边,构建第二图形;
文本识别模块,用于基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。
24.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征不同节点之间的边,构建第一图形;
利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型。
25.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征不同节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157158.9A CN112836498A (zh) | 2019-11-22 | 2019-11-22 | 数据处理方法、识别方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157158.9A CN112836498A (zh) | 2019-11-22 | 2019-11-22 | 数据处理方法、识别方法、装置及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112836498A true CN112836498A (zh) | 2021-05-25 |
Family
ID=75922735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911157158.9A Pending CN112836498A (zh) | 2019-11-22 | 2019-11-22 | 数据处理方法、识别方法、装置及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836498A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114025024A (zh) * | 2021-10-18 | 2022-02-08 | 中国银联股份有限公司 | 一种数据传输方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
US9672203B1 (en) * | 2014-12-01 | 2017-06-06 | Amazon Technologies, Inc. | Calculating a maturity level of a text string |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
-
2019
- 2019-11-22 CN CN201911157158.9A patent/CN112836498A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
US9672203B1 (en) * | 2014-12-01 | 2017-06-06 | Amazon Technologies, Inc. | Calculating a maturity level of a text string |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
Non-Patent Citations (4)
Title |
---|
姚春华;刘潇;高弘毅;鄢秋霞;: "基于句法语义特征的实体关系抽取技术", 通信技术, no. 08, 10 August 2018 (2018-08-10) * |
宋胜利;王少龙;陈平;: "面向文本分类的中文文本语义表示方法", 西安电子科技大学学报, no. 02, 16 November 2012 (2012-11-16), pages 89 * |
廖祥文;刘德元;桂林;程学旗;陈国龙;: "融合文本概念化与网络表示的观点检索", 软件学报, no. 10, 8 February 2018 (2018-02-08) * |
张辰;冯冲;刘全超;师超;黄河燕;周海云;: "基于多特征融合的中文比较句识别算法", 中文信息学报, no. 06, 15 November 2013 (2013-11-15), pages 110 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114025024A (zh) * | 2021-10-18 | 2022-02-08 | 中国银联股份有限公司 | 一种数据传输方法及装置 |
CN114025024B (zh) * | 2021-10-18 | 2023-07-07 | 中国银联股份有限公司 | 一种数据传输方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN109902307B (zh) | 命名实体识别方法、命名实体识别模型的训练方法及装置 | |
US20230169270A1 (en) | Entity linking method and apparatus | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN110188762B (zh) | 中英文混合商户门店名称识别方法、系统、设备及介质 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN112084746A (zh) | 一种实体识别方法、系统、存储介质及设备 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN114626380A (zh) | 实体识别的方法和装置、电子设备和存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN115659226A (zh) | 一种获取app标签的数据处理系统 | |
CN111767390A (zh) | 技能词评估方法及装置、电子设备、计算机可读介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113408273A (zh) | 实体识别模型的训练与实体识别方法、装置 | |
CN110222340B (zh) | 书籍人物姓名识别模型的训练方法、电子设备及存储介质 | |
CN112836498A (zh) | 数据处理方法、识别方法、装置及计算设备 | |
CN109614494B (zh) | 一种文本分类方法及相关装置 | |
CN110705258A (zh) | 文本实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |