CN113128226A - 命名实体识别方法、装置、电子设备及计算机存储介质 - Google Patents
命名实体识别方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113128226A CN113128226A CN201911425813.4A CN201911425813A CN113128226A CN 113128226 A CN113128226 A CN 113128226A CN 201911425813 A CN201911425813 A CN 201911425813A CN 113128226 A CN113128226 A CN 113128226A
- Authority
- CN
- China
- Prior art keywords
- word
- rule
- words
- character
- collocation rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 141
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 230000007704 transition Effects 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 34
- 238000003062 neural network model Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 42
- 238000012545 processing Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 11
- 230000006872 improvement Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 229940112822 chewing gum Drugs 0.000 description 2
- 235000015218 chewing gum Nutrition 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种命名实体识别方法、装置、用于电商平台的命名实体识别方法、装置、案件线索的识别方法、装置、内容识别方法、装置、电子设备及计算机存储介质。命名实体识别方法包括:生成待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别文本中的命名实体,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
Description
技术领域
本申请实施例数据处理技术领域,尤其涉及一种命名实体识别方法、装置、用于电商平台的命名实体识别方法、装置、案件线索的识别方法、装置、内容识别方法、装置、电子设备及计算机存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指通过自动化的方法,自动识别文本中具有特定意义的实体,主要包括人名、地名、机构名、商品名、专有名词等。命名实体识别在文本处理领域,例如问答系统、翻译等具有重要作用。
但是,有些词语在不同的情况下可以理解为不同的意思,即需要识别为不同的实体,例如“卡片手机”中的“卡片”应该识别为一个电子产品的类型,而“DIY卡片”中的“卡片”应该识别为一种物品的名称。由于词语可以理解为不同的意思,使得在识别命名实体时会产生歧义,导致命名实体识别准确率较低。
因此,如何提供一种能够进行词义消歧方法,是本领域的技术人员亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例所解决的技术问题之一在于提供一种命名实体识别方法、装置、用于电商平台的命名实体识别方法、装置、案件线索的识别方法、装置、内容识别方法、装置、电子设备及计算机存储介质,用以克服现有技术中由于歧义导致的命名实体识别准确率较低的问题。
第一方面,本申请实施例提供了一种命名实体识别方法,包括:生成待识别文本对应的基础图,所述基础图包括多个字符节点;获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的命名实体,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
第二方面,本申请实施例提供了一种命名实体识别装置,包括:基础图生成模块,用于生成待识别文本对应的基础图,所述基础图包括多个字符节点;规则确定模块,用于获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的命名实体,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
第三方面,本申请实施例提供了一种命名实体识别方法,包括:生成待识别文本对应的基础图,所述基础图包括多个字符节点;获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;将所述目标图输入图神经网络模型,通过所述图神经网络模型确定所述待识别文本中的各个字符对应的字符编码;将所述字符编码输入命名实体识别模型,通过所述命名实体识别模型识别所述待识别文本中的命名实体。
第四方面,本申请实施例提供了一种命名实体识别装置,包括:基础图生成模块,用于生成待识别文本对应的基础图,所述基础图包括多个字符节点;规则确定模块,用于获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;图神经网络模块,用于将所述目标图输入图神经网络模型,通过所述图神经网络模型确定所述待识别文本中的各个字符对应的字符编码;命名实体识别模块,用于将所述字符编码输入命名实体识别模型,通过所述命名实体识别模型识别所述待识别文本中的命名实体。
第五方面,本申请实施例提供了一种用于电商平台的命名实体识别方法,包括:生成用于电商平台的待识别文本对应的基础图,所述基础图包括多个字符节点;获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语之间的语序关系,所述词语包括品牌名称和/或商品名称;从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的品牌名称和/或商品名称,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
第六方面,本申请实施例提供了一种用于电商平台的命名实体识别装置,包括:基础图生成模块,用于生成用于电商平台的待识别文本对应的基础图,所述基础图包括多个字符节点;规则确定模块,用于获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语之间的语序关系,所述词语包括品牌名称和/或商品名称;第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的品牌名称和/或商品名称,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
第七方面,本申请实施例提供了一种案件线索的识别方法,包括:生成待识别案件文书对应的基础图,所述基础图包括多个字符节点;获取与所述待识别案件文书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为案件线索的语序关系;从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别案件文书中的案件线索,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
第八方面,本申请实施例提供了一种案件线索的识别装置,包括:基础图生成模块,用于生成待识别案件文书对应的基础图,所述基础图包括多个字符节点;规则确定模块,用于获取与所述待识别案件文书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为案件线索的语序关系;第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别案件文书中的案件线索,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
第九方面,本申请实施例提供了一种内容识别方法,包括:生成待识别起诉书对应的基础图,所述基础图包括多个字符节点;获取与所述待识别起诉书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为关键内容的语序关系;从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别起诉书中的关键内容,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;根据识别出的关键内容,将所述待识别起诉书进行结构化处理。
第十方面,本申请实施例提供了一种内容识别装置,包括:基础图生成模块,用于生成待识别起诉书对应的基础图,所述基础图包括多个字符节点;规则确定模块,用于获取与所述待识别起诉书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为关键内容的语序关系;第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别起诉书中的关键内容,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;结构化模块,用于根据识别出的关键内容,将所述待识别起诉书进行结构化处理。
第十一方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述方法对应的操作。
第十二方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
本申请实施例的方案,通过生成待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,词语含义较为固定且唯一,从而根据能够表征待识别文本对应的搭配规则的目标图,可以正确理解待识别文本中词语的含义,实现词语消歧,从而在根据目标图识别待识别文本中的命名实体时,可以提高命名实体识别的准确率。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1a为实现本申请实施例提供的命名实体识别方法的一种命名实体识别系统的结构示意图;
图1b为本申请实施例一的命名实体识别方法的流程示意图;
图1c为本申请实施例一的目标图的生成过程示意图;
图2a为本申请实施例二的命名实体识别方法的流程示意图;
图2b为本申请实施例二目标图的生成过程示意图;
图2c为本申请实施例二命名实体识别过程的示意图;
图3a为本申请实施例三的命名实体识别方法的流程示意图;
图3b为本申请实施例三命名实体识别过程的示意图;
图4为本申请实施例四中用于电商平台的命名实体识别方法的流程示意图;
图5为本申请实施例五中案件线索的识别方法的流程示意图;
图6为本申请实施例六的内容识别方法的流程示意图;
图7为本申请实施例七中命名实体识别装置的结构示意图;
图8为本申请实施例八中命名实体识别装置的结构示意图;
图9为本申请实施例十一中内容识别装置的结构示意图;
图10为本申请实施例十二中电子设备的结构示意图。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
通常,通过神经网络模型来进行命名实体识别,例如,基于双向长短期记忆网络的条件随机场模型(LSTM-CRF)等。
通过LSTM-CRF进行命名实体识别时,大多先通过查表等方式,确定待识别文本中的字符对应的字符编号,并按照待识别文本中字符的语序顺序,将查找到的字符编号输入至LSTM-CRF模型中。
LSTM-CRF模型中包括LSTM子模型以及CRF子模型,字符编号输入至LSTM-CRF模型后,会先通过LSTM子模型按照语序顺序对输入的字符编号进行时间序列建模,并输出,同时输出的还包括每个字符分别与多个标签对应的概率,标签具体可以包括B-LOC、E-LOC,其中,标签中的前缀B表示这个字是一个实体的开始,前缀E表示这个字是一个实体的结尾,前缀还可以包括I,表示这个字在一个实体内部,S表示这个实体是一个单字词。标签中的后缀用于表示预定义的类型,例如,LOC表示地点。CRF子模型可以根据LSTM子模型输出的概率,计算出一条标签路径,根据标签路径即可确定识别出的命名实体。
然而,上述方法中,仅考虑了字符本身的含义,若待识别文本中存在有歧义的词语,即字符组成的词语可以被理解为两种或两种以上的意思,单纯通过字符的含义无法确定正确的语义,则通过上述方法进行识别时,有可能计算出分别对应正确的语义以及歧义的至少两条标签路径,进而导致根据标签路径进行命名实体识别得到的识别结果可能存在错误,即命名实体识别的正确率较低。
为了解决上述问题,本申请实施例提供一种命名实体识别方案,通过生成待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,词语含义较为固定且唯一,从而根据能够表征待识别文本对应的搭配规则的目标图,可以正确理解待识别文本中词语的含义,实现词语消歧,从而在根据目标图识别待识别文本中的命名实体时,可以提高命名实体识别的准确率。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
以下,首先对一种命名实体识别系统进行说明。参照图1a,为实现本申请实施例提供的命名实体识别方法的一种命名实体识别系统的结构示意图,该系统可以包括服务器以及终端设备A,应该理解,图1a所呈现的服务器与终端设备A仅是示例性说明,并不会对两者的实现形式做限定。
在实际应用中,服务器与终端设备A之间可以是有线或无线网络连接,具体可以通过GSM、GPRS、LTE等移动网络实现通信连接,或者是通过蓝牙、WIFI、红外线等方式进行通信连接,本申请实施例对服务器与终端设备A之间的具体通信连接方式不做限定。
服务器可以是为用户提供服务的服务设备,具体可以是独立的应用服务设备,也可以是由多个服务器构成的服务集群,实际应用中,其可以是云服务器、云主机、虚拟中心等,本申请实施例对该服务器的结构及其实现形式不作限定。
终端设备A可以是面向用户,并能够与用户进行交互的终端,如手机、笔记本、电脑、iPad、智能音响等,还可以各种自助终端,如医院、银行、车站等场所中的自助服务机,此外,终端设备A还可以是支持交互的智能机器,如聊天机器人、扫地机器人、点餐服务机器人等。本申请实施例对终端设备的产品类型及其物理形态不做限定,本申请实施例需要其具有交互功能,可以通过安装如新闻浏览等交互类应用程序实现。
在进行命名实体识别时,终端设备A可通过网络向服务器发送针对待识别文本的命名实体识别请求。服务器接收终端设备A发送的针对待识别文本的命名实体识别请求,并基于命名实体识别请求向终端设备A返回针对命名实体识别请求的响应结果。例如,当待识别的文本为“中国”时,命名实体识别请求携带待识别文本“中国”,并且针对命名实体识别请求的响应结果为“中(B-LOC)国(E-LOC)”,其中,B表示这个字是一个实体(中国)的开始,E表示这个字是一个实体(中国)的结尾,LOC表示实体(中国)的类型为地点(location)。由此可见,本申请实施例提供的命名实体识别方法可以由服务器执行,具体实现过程可以参照下文方法实施例的描述。
结合上图1a所示的系统结构示意图,参照图1b,为本申请实施例一的命名实体识别方法的流程示意图,可以应用于各种应用场景下的文本识别过程,具体可以由服务器执行,当然,也可由其他具有计算能力的终端执行,如图1b所示,该方法可以包括但并不局限于以下步骤:
S102、生成待识别文本对应的基础图。
本申请实施例中,待识别文本即用于进行命名实体识别的文本。
本步骤中的基础图以及后续步骤中的目标图,均为图结构数据。图结构数据是指数据的结构为图形结构,图形结构是一种比树形结构更复杂的非线性结构。在图形结构中,包括多个节点以及边,任意两个节点之间都可能通过边连接。为此,图形结构常被用于描述各种复杂的数据对象,在自然科学、社会科学和人文科学等许多领域有着非常广泛的应用。在本申请中,节点具体可以包括与字符对应的字符节点、与搭配规则对应的规则节点等,连接节点的边具体可以包括用于表征字符间的语序关系的连接边、用于表征词语搭配规则的连接边等。
本申请实施例中,生成待识别文本的基础图,即生成待识别文本对应的图结构数据,从而可以通过基础图表征待识别文本,基础图包括多个字符节点,基础图中的字符节点可以与待识别文本中的字符一一对应,生成基础图的方式可参考相关的技术,本实施例在此不再赘述。
另外,本实施例对待识别文本的语言类型不进行限定,例如,其语言类型可以为中文,也可以为英文,当待识别文本为中文时,基础图中的字符节点可以与待识别文本中的汉字一一对应,当待识别文本为英文时,基础图中的字符节点可以与待识别文本中的单词一一对应。
S104、获取与待识别文本匹配的词语搭配规则。
本申请实施例中,可以预先设置有多个词语搭配规则,词语搭配规则用于指示常规搭配使用的词语,其表征了在日常生活或工作等场景中这些词语的搭配和使用习惯。词语搭配规则可由本领域的技术人员根据识别需要确定,也可通过神经网络模型等学习样本数据确定,本实施例对此不进行限定。
另外,词语搭配规则并非固定不变,而是可进行更新的,词语搭配规则具体可由本领域的技术人员更新,或者由神经网络模型进行更新,本实施例对此不进行限定。
词语搭配规则中可以包括若干词语以及若干个词语之间的语序关系。词语搭配规则中包括的词语的数量一般为两个,也可以包括两个以上,本实施例对此不进行限定;若干个词语之间的语序关系是指若干个词语中的组合的次序关系,例如,词语之间的语序关系可以指示两个词语相邻、两个词语中的某一个在前另一个在后等,在一个词语搭配规则中,若干个词语之间的语序关系可以包括一种,也可以包括多种,本实施例对此不进行限定。由于词语出现在不同的位置、与不同的词语搭配使用时,词语对应的含义不同,因此,通过待识别文本匹配的词语搭配规则,可以确定待识别文本中搭配使用的词语,并确定搭配使用时词语之间的语序关系,从而通过词语搭配规则,可以正确理解词语的含义,实现词语消歧,进而可以确定某些词语是否为命名实体、具体为哪类命名实体等,提高了命名实体识别的准确率。
例如,词语搭配规则中可以包括“卡片”、“手机”两个词语,两个词语之间的语序关系为“卡片”在前,“手机”在后。
在一个具体例子中,可以根据待识别文本中的字符来匹配的词语搭配规则。例如,根据待识别文本的字符可以确定,某一个词语搭配规则中所有的词语均包含于待识别文本中,则可以确定该词语搭配规则与待识别文本匹配。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
S106、从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
基础图根据待识别文本生成,因此,基础图中的字符节点与待识别文本中的所有字符对应,则,在步骤S106中,可以根据搭配匹配规则对基础图的多个字符节点进行筛选,筛选得到的、与词语搭配规则中的词语对应的字符节点即为第一字符节点。
一个具体的实现方式可以例如,确定待识别文本中每个字符对应的第一ID值,根据多个第一ID值确定多个字符节点,字符节点可以与第一ID值一一对应。然后确定词语搭配规则中的词语对应的字符的第二ID值,由于同一个字符对应的ID值相同,因此,可以直接根据第二ID值在多个字符节点查找,从而确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定,本领域的技术人员可以采用其他方式,从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节,这也在本申请的保护范围内。
由于词语搭配规则中包括的词语的数量为若干,即两个或两个以上,则对应的第一字符节点的数量也为若干个,即两个或两个以上。需要说明的是,第一字符节点的数量与词语搭配规则中词语的数量可以相同,也可以不同,本实施例对此不进行限定。
S108、根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别文本中的命名实体。
其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
本申请实施例中,加入与部分或全部若干个第一字符节点连接的、用于表征词语搭配规则的连接边,即加入的用于表征词语搭配规则的连接边的至少一端与第一字符节点连接。另外,由于在基础图中加入的用于表征词语搭配规则的连接边是根据搭配规则中词语之间的语序关系确定的,因此,通过加入用于表征词语搭配规则的连接边,可以在基础图中融入词语搭配规则,使得生成的目标图不仅可以表征待识别文本,还可以表征待识别文本对应的词语搭配规则。
生成目标图以识别待识别文本中的命名实体时,可以根据目标图确定待识别文本对应的标签序列,标签序列可以表示待识别文本中各个词语的类别等,根据标签序列可以确定待识别文本中的命名实体。例如,“中国”两个字对应的标签序列可以为:B-LOC;E-LOC。其中,B-LOC为“中”对应的标签,E-LOC为“国”对应的标签,B表示这个字是一个实体的开始,E表示这个字是一个实体的结尾,LOC表示实体的类型为地点(location)。
由于目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,使得在根据目标图识别待识别文本中的命名实体的过程中,可以同时考虑待识别文本本身,以及待识别文本的搭配规则,进而增加了命名实体识别的准确率。
为了更好地理解,对目标图的生成过程进行如图1c的图示说明。假设,待识别文本为“最新款卡片手机”,首先,可以将待识别文本中的每个字用一个字符节点标识,从而得到字符节点c1、c2、c3、c4、c5、c6、c7,然后可以通过用于表征字符间的语序关系的连接边L1连接字符节点,生成基础图。然后根据词语搭配规则中的词语“卡片”、“手机”,从字符节点中确定出第一字符节点c4、c5、c6、c7,然后可以通过用于表征词语搭配规则的连接边L2连接第一字符节点c4、c5、c6、c7,生成目标图。生成目标图后,可以根据目标图进行命名实体识别,确定待识别文本对应的标签序列,从而根据标签序列确定“最新款卡片手机”中的命名实体。
本实施例中,通过生成待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,词语含义较为固定且唯一,从而根据能够表征待识别文本对应的搭配规则的目标图,可以正确理解待识别文本中词语的含义,实现词语消歧,从而在根据目标图识别待识别文本中的命名实体时,可以提高命名实体识别的准确率。
本实施例的命名实体识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
参照图2a,为本申请实施例二的命名实体识别方法的流程示意图,如图2a所示,该方法可以包括但并不局限于以下步骤:
S202、生成待识别文本对应的基础图。
在一些可选实施例中,步骤S202可以包括:根据待识别文本中的字符,确定多个字符节点;根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
通过上述方式生成基础图,可使基础图中的字符节点与待识别文本中的字符一一对应,并可使基础图中的多个字符节点通过用于表征字符间的语序关系的连接边连接,从而在基础图中尽量完整地表征待识别文本,进而提高了识别命名实体时的准确率。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。一个具体的实现方式可以例如上述图1c所示,在此不再赘述。
S204、获取与待识别文本匹配的词语搭配规则。
本步骤与上述实施例中的步骤S104类似,在此不再赘述。
S206、从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
本步骤的具体实现方式可参考上述步骤S106,在此不再赘述。
S208、根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点。
起始规则节点可用于表征词语搭配规则在待识别文本中的起始位置,结束规则节点可以表征词语搭配规则在待识别文本中的结束位置,过渡规则节点可以表征词语搭配规则中的某一词语在待识别文本中的开始位置或某一词语在待识别文本中的结尾位置。
在一些可选实施例中,为了减小生成的目标图的数据量,可以仅加入三类规则节点中的一类或两类,或者可以控制规则节点的数量;当然,为了达到更好地识别效果,可以将三类规则节点全部加入,本实施例对此不进行限定。
S210、根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,生成目标图。
用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
在一些可选实施例中,若规则节点包括起始规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:
根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;
通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
或者,在一些可选实施例中,若规则节点包括结束规则节点,若规则节点包括结束规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:
根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;
通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
或者,在一些可选实施例中,若规则节点包括过渡规则节点,若规则节点包括过渡规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。籍此,通过过渡规则节点,可以准确地标识词语搭配规则包括的词语在待识别文本中的变化位置,从而能够更好的将词语搭配规则融入基础图中,提高命名实体识别的准确率。
以“卡片”“手机”为例,在使用时,一般“卡片”在前、“手机”在后,即“卡片”可以为第一词语,“手机”可以为第二词语,增加过渡规则节点后,可以通过用于表征词语搭配规则的连接边,连接“片”对应的第一字符节点与过渡规则节点,以及通过用于表征词语搭配规则的连接边,连接过渡规则节点与“手”对应的第一字符节点。
另外,用于表征词语搭配规则的连接边可以为有向边,例如图2b中的L2,具体地,可以先根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;再在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。籍此,通过用于表征词语搭配规则的连接边指示的方向,可以准确地标识词语搭配规则包括的词语的语序,从而能够更好的将词语搭配规则融入基础图中,提高命名实体识别的准确率。
同理,用于表征字符间的语序关系的连接边同样可以为有向边,从而通过用于表征字符间的语序关系的连接边指示的方向,准确地标识待识别文本中的字符的语序,从而在基础图中尽量完整地表征待识别文本,进而提高了识别命名实体时的准确率。
此外,在加入用于表征词语搭配规则的连接边后,还可以根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重,然后生成目标图。
词语搭配规则的使用概率用于指示当待识别文本中包括词语搭配规则中包括的词语时,词语可以解释为固定含义的概率。例如,当待识别文本中出现“卡片手机”时,“卡片”被解释为电子产品的类型的概率为0.9,则用于表征词语搭配规则的连接边的权重可以设置为0.9。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
词语搭配规则的使用概率可以由本领域的技术人员按需设置,也可以通过类似通过神经网络模型学习样本数据等方式确定,本实施例对此不进行限定。
通过设置用于表征词语搭配规则的连接边的权重,可以更好地将词语搭配规则融入基础图中,进而命名实体识别的准确率。
当用于表征词语搭配规则的连接边存在权重时,用于表征字符间的语序关系的连接边同样也可以设置权重,例如,将用于表征字符间的语序关系的连接边的权重统一设置为1等,本实施例对此不进行限定。
为了更好地理解,对目标图的生成过程进行如图2b的图示说明。假设,待识别文本为“最新款卡片手机”,首先,可以将待识别文本中的每个字用一个字符节点标识,从而得到字符节点c1、c2、c3、c4、c5、c6、c7,然后可以通过有向边L1(用于表征字符间的语序关系的连接边)连接字符节点,生成基础图,L1的方向与字符的语序关系相对应。之后,可以在基础图中加入规则节点,规则节点包括起始规则节点v1、过渡规则节点v2、结束规则节点v3,并根据词语搭配规则中的词语“卡片”、“手机”,从字符节点中确定出第一字符节点c4、c5、c6、c7,然后可以通过有向边L2(用于表征词语搭配规则的连接边)按照v1→c4→c5→v2→c6→c7→v3的顺序进行连接,生成目标图。生成目标图后,可以根据目标图进行命名实体识别,确定待识别文本对应的标签序列,从而根据标签序列确定“最新款卡片手机”中的命名实体。
S212、根据目标图确定待识别文本中的各个字符对应的字符编码。
字符编码具体可以为字符对应的向量表示。
S214、根据字符编码识别待识别文本中的命名实体。
以待识别的文本为“最新款卡片手机”为例,通过步骤S212中可以确定待识别文本中每个字符对应的字符编码,基于字符编码,可以确定待识别文本对应的标签路径。
具体地,待识别文本中的“最”字取得预定义标签“O”,待识别文本中的“新”字取得预定义标签“B-TIME”,待识别文本中的“款”字取得预定义标签“E-TIME”,待识别文本中的“卡”字取得预定义标签“B-TYP”,待识别文本中的“片”字取得预定义标签“E-TYP”,待识别文本中的“手”字取得预定义标签“B-PRO”,待识别文本中的“机”字取得预定义标签“E-PRO”。其中,前缀B表示这个字是一个实体的开始,前缀I表示这个字在一个实体内部,前缀E表示这个字是一个实体的结尾,前缀S表示这个实体是一个单字词。预定义实体类型由不同的数据集定义,可以是时间(TIME)、地点(LOC)、人名(PER)、机构(ORG)、商品(PRO)、品牌(BRA)、类别(TYP),也可以是其他自定义的实体类型,实体类型的集合都必须包含其他类型(O)用以表示没有被划分到预定义实体类型集合里面的字。
根据确定的标签路径,即可确定待识别文本中的命名实体。
在一个具体的例子中,如图2c所示,在图2c所示的应用场景中,包括终端设备A和服务器。其中,终端设备A用于获取待识别文本,并将携带有待识别文本的命名实体识别请求发送至服务器,服务器用于执行本申请实施例提供的命名实体识别方法,以识别待识别的文本中的命名实体。
服务器中的基础图生成模块用于生成待识别文本对应的基础图,规则确定模块用于确定待识别文本对应的词语搭配规则;第一字符节点确定模块可以根据词语搭配规则从基础图中确定出若干个第一字符节点;目标图生成模块可以根据第一字符节点生成目标图;编码模块可以根据目标图确定待识别文本中的各个字符对应的字符编码,识别模块可以根据字符编码识别待识别文本中的命名实体。由此,服务器可以向终端设备A返回命名实体识别结果。
本实施例中,通过在基础图中增加规则节点、将用于表征词语搭配规则的连接边设置为有向边等方式来生成目标图,能够更好的将词语搭配规则融入基础图中生成目标图,以提高命名实体识别的准确率。
本实施例的命名实体识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
参照图3a,为本申请实施例三的命名实体识别方法的流程示意图,如图3所示,该方法可以包括但并不局限于以下步骤:
S302、生成待识别文本对应的基础图。
基础图包括多个字符节点。
本申请的一种实现方式中,步骤S302可以包括:根据待识别文本中的字符,确定多个字符节点;根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
S304、获取与待识别文本匹配的词语搭配规则。
词语搭配规则包括若干个词语以及若干个词语之间的语序关系;
S306、从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
S308、根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图。
用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
步骤S302-S308的具体实现方式可参考上述实施例,本实施例不再赘述。
在本申请的一种实现方式中,步骤S308可以包括:根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
在本申请的另一种实现方式中,步骤S308可以包括:根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
具体地,若规则节点包括起始规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
或者,若规则节点包括结束规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
或者,若规则节点包括过渡规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
当然,上述两种实现方式可同时使用。
在本申请的另一种实现方式中,执行步骤S308时,根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,之后,方法还包括:根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
S310、将目标图输入图神经网络模型,通过图神经网络模型确定待识别文本中的各个字符对应的字符编码。
籍此,通过图神经网络模型,可以对目标图的数据执行编码操作,从而准确地确定各个字符对应的字符编码。字符编码具体可以为字符对应的向量表示。
在一个具体的例子中,图神经网络模型(graph neural network,简称GNN),可以指在广义的图结构上,利用一种递归聚合的方式,将图中节点的信息进行传播,最终学习每个图节点的编码。在本申请实施例中,目标图中不仅可以包括字符节点,还可包括规则节点,则学习时可以学习两类节点的编码,在输出时,仅输出字符节点对应的字符编码即可。
更为具体的,深度学习理论中的图神经网络模型可以是在拓扑空间(topologicalspace)内按图(graph)结构组织以进行关系推理(relational reasoning)的函数集合。该图神经网络模型可以为图卷积网络模型、深度游走模型(又称DeepWalk模型,一种对于图中的节点使用向量建模的模型)、大规模信息网络嵌入(LINE,Large-scale InformationNetwork Embedding)模型、节点转向量模型(又称Node2vec模型,一种对于图中的节点使用向量建模的模型)、结构深层网络嵌入(SDNE,Structural Deep Network Embedding)模型和图自编码器模型等。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
S312、将字符编码输入命名实体识别模型,通过命名实体识别模型识别待识别文本中的命名实体。
籍此,通过实体识别模型,可以根据字符编码进行标签标注,从而准确地识别出命名实体。具体地,如上,字符编码具体可以为字符对应的向量表示,则根据字符编码进行标签标注,即根据字符对应的向量表示进行标签标注。
在一个具体的例子中,命名实体识别模型具体可以为基于双向长短期记忆网络的条件随机场模型(LSTM-CRF),其中包括一个LSTM子模型和CRF子模型,LSTM子模型可以对输入的字符编码进行时间序列建模,并输出各个字符编码对应于多个标签的概率,CRF子模型可以基于LSTM输出的概率,确定一个标签序列,标签序列中的标签与字符编码一一对应,根据标签序列可以确定待识别文本中的命名实体。
为了更好地理解,如图3b所示,以待识别的文本为“最新款卡片手机”为例,对命名实体识别过程进行详细的说明。
首先,生成“最新款卡片手机”对应的基础图,并将词语搭配规则融入基础图,生成目标图,将“最新款卡片手机”对应的目标图输入图神经网络模型中,通过图神经网络模型输出“最新款卡片手机”每个字符对应的字符编码,分别为编码1-编码7。将字符对应的编码1-编码7输入至命名实体识别模型中,先通过命名实体识别模型对编码1-编码7进行时间序列建模;然后,通过命名实体识别模型的递归神经网络,对时间序列“编码1-编码7”中的每一个编码再次执行编码操作,以获得“最新款卡片手机”中的每一个文字的特征编码向量,然后再使用递归神经网络计算每个特征编码向量对应于每个标签的概率。递归神经网络是具有树状阶层结构且网络节点按其连接顺序对输入信息(即特征编码向量)进行递归的人工神经网络,其可以将输入的序列转换为较高层次的理解,对序列中的内容进行注释(即确定每个特征编码向量对应于每个标签的概率)并输出;最后利用命名实体识别模型中的条件随机场模型(CRF)进行解码,即根据特征编码向量对应的多个标签以及每个标签对应的概率,计算出一条标签路径,标签路径中包括多个标签且标签与待识别文本中的字符一一对应,从而根据标签路径确定命名实体的识别结果。
具体地,待识别文本中的“最”字取得预定义标签“O”,待识别文本中的“新”字取得预定义标签“B-TIME”,待识别文本中的“款”字取得预定义标签“E-TIME”,待识别文本中的“卡”字取得预定义标签“B-TYP”,待识别文本中的“片”字取得预定义标签“E-TYP”,待识别文本中的“手”字取得预定义标签“B-PRO”,待识别文本中的“机”字取得预定义标签“E-PRO”。
另外需要说明的是,标签可以由前缀和预定义实体类型组成。前缀B表示这个字是一个实体的开始,前缀I表示这个字在一个实体内部,前缀E表示这个字是一个实体的结尾,前缀S表示这个实体是一个单字词。预定义实体类型由不同的数据集定义,可以是时间(TIME)、地点(LOC)、人名(PER)、机构(ORG)、商品(PRO)、品牌(BRA)、类别(TYP),也可以是其他自定义的实体类型,实体类型的集合都必须包含其他类型(O)用以表示没有被划分到预定义实体类型集合里面的字。
本申请实施例提供一种命名实体识别方案,通过生成待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,其含义较为固定且唯一,从而将目标图输入图神经网络模型,通过图神经网络模型确定待识别文本中的各个字符对应的字符编码后,得到的字符编码中同样融入了词语搭配规则,使得将字符编码输入命名实体识别模型后,通过命名实体识别模型可以字符编码根据正确理解待识别文本中词语的含义,准确地识别出其中的命名实体,实现了词语消歧,可以提高命名实体识别的准确率。
本实施例的命名实体识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
在实际应用当中,本申请实施例提供的命名实体识别方法可应用于电商平台的待识别文本的识别。参照图4,为本申请实施例四的用于电商平台的命名实体识别方法的流程示意图,如图4所示,该方法可以包括但并不局限于以下步骤:
S402、生成用于电商平台的待识别文本对应的基础图,基础图包括多个字符节点。
在本申请的一种实现方式中,步骤S402包括:根据待识别文本中的字符,确定多个字符节点;根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
S404、获取与待识别文本匹配的词语搭配规则。
词语搭配规则包括若干个词语以及若干个词语之间的语序关系,词语包括品牌名称和/或商品名称。
具体地,词语搭配规则可以例如上述实施例中的“卡片”、“手机”对应的词语搭配规则,在此不再赘述。
S406、从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
S408、根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别文本中的品牌名称和/或商品名称。
用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
本实施例中,步骤S402-S408的具体步骤可参考上述实施例,本实施例不再赘述。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中加入用于表征词语搭配规则的连接边,包括:根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中加入用于表征词语搭配规则的连接边,包括:根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
具体地,若规则节点包括起始规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
或者,若规则节点包括结束规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
或者,若规则节点包括过渡规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,之后,方法还包括:根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
本实施例提供的方案,通过生成用于电商平台的待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系,词语包括品牌名称和/或商品名称;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,词语含义较为固定且唯一,从而根据能够表征待识别文本对应的搭配规则的目标图,可以正确理解待识别文本中词语的含义,实现词语消歧,从而在根据目标图识别待识别文本中的品牌名称和/或商品名称时,可以提高命名实体识别的准确率。
本实施例的用于电商平台的命名实体识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
在实际应用当中,本申请实施例提供的命名实体识别方法可应用于案件文书的识别。参照图5,为本申请实施例五的案件线索的识别方法的流程示意图,如图5所示,该方法可以包括但并不局限于以下步骤:
S502、生成待识别案件文书对应的基础图,基础图包括多个字符节点。
在本申请的一种实现方式中,步骤S502可以包括:根据待识别文本中的字符,确定多个字符节点;根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
S504、获取与待识别案件文书匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语组合为案件线索的语序关系。
词语搭配规则中包括的词语可以例如“口香糖”“开锁”,两者的语序关系可以为“口香糖”在前、“开锁”在后。
S506、从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
S508、根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别案件文书中的案件线索。
其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。本实施例中,步骤S502-S508的具体步骤可参考上述实施例,本实施例不再赘述。
本实施例中,可以根据识别到的关键线索,建立案件图谱。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中加入用于表征词语搭配规则的连接边,包括:根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中加入用于表征词语搭配规则的连接边,包括:根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
具体地,若规则节点包括起始规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
或者,若规则节点包括结束规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
或者,若规则节点包括过渡规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,之后,方法还包括:根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
本实施例提供的方案,通过生成待识别案件文书对应的基础图,基础图包括多个字符节点;获取与待识别案件文书匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语组合为案件线索的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别案件文书,还可以表征待识别案件文书对应的搭配规则,而按照词语搭配规则使用时,词语一般可以确定为关键线索,从而根据能够表征待识别案件文书对应的搭配规则的目标图,可以筛选正确的案件线索,提高案件线索识别的准确率。
本实施例的案件线索的识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
在实际应用当中,本申请实施例提供的命名实体识别方法可应用于起诉书的识别。参照图6,为本申请实施例六的内容识别方法的流程示意图,如图6所示,该方法可以包括但并不局限于以下步骤:
S602、生成待识别起诉书对应的基础图。
基础图包括多个字符节点。
在本申请的一种实现方式中,步骤S602包括:根据待识别文本中的字符,确定多个字符节点;根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
S604、获取与待识别起诉书匹配的词语搭配规则。
词语搭配规则包括若干个词语以及若干个词语组合为关键内容的语序关系。
词语搭配规则中包括的词语可以例如“原告”“小明”,两者的语序关系可以为“原告”在前、“小明”在后。
S606、从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
S608、根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别起诉书中的关键内容。
其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
本实施例中,步骤S602-S608的具体步骤可参考上述实施例,本实施例不再赘述。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中加入用于表征词语搭配规则的连接边,包括:根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中加入用于表征词语搭配规则的连接边,包括:根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
具体地,若规则节点包括起始规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
或者,若规则节点包括结束规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
或者,若规则节点包括过渡规则节点,根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点,包括:根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
在本申请的一种实现方式中,根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,之后,方法还包括:根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
S610、根据识别出的关键内容,将待识别起诉书进行结构化处理。
具体进行结构化处理的相关方法可参考相关技术,本实施例不再赘述。
本实施例提供的方案,通过从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图不仅能够表征待识别起诉书中的字符,还可以表征待识别起诉书对应的搭配规则,而按照词语搭配规则使用词语时,一般可以直接确定词语对应的内容为待识别起诉书中的关键内容,从而根据能够表征待识别起诉书对应的搭配规则的目标图,可以准确识别出待识别起诉书中的关键内容,提高关键内容识别的准确率,并可以根据识别出的关键内容,将待识别起诉书进行结构化处理。
本实施例的内容识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
图7为本申请实施例七中命名实体识别装置的结构示意图;如图7所示,其包括:基础图生成模块702、规则确定模块704、第一字符节点确定模块706、目标图生成模块708。
基础图生成模块702,用于生成待识别文本对应的基础图,基础图包括多个字符节点。
规则确定模块704,用于获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系。
第一字符节点确定模块706,用于从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
目标图生成模块708,用于根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别文本中的命名实体,其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
可选地,本申请任一实施例中,目标图生成模块708包括:顺序确定模块,用于根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;边增加模块,用于在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
可选地,本申请任一实施例中,目标图生成模块708包括:规则节点确定模块,用于根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;节点连接模块,用于根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
可选地,本申请任一实施例中,若规则节点包括起始规则节点,节点连接模块,包括:起始节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;起始节点连接模块,用于通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括结束规则节点,节点连接模块包括:结束节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;结束节点连接模块,用于通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括过渡规则节点,节点连接模块包括:相邻词语确定模块,用于根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;过渡节点确定模块,用于从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;过渡节点连接模块,用通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
可选地,本申请任一实施例中,目标图生成模块708包括:权重确定模块,用于根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
可选地,本申请任一实施例中,基础图生成模块702包括:字符节点确定模块,用于根据待识别文本中的字符,确定多个字符节点;基础图生成子模块,用于根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
本实施例提供的方案,通过生成待识别文本对应的基础图,基础图包括多个字符节点;确定与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,词语含义较为固定且唯一,从而根据能够表征待识别文本对应的搭配规则的目标图,可以正确理解待识别文本中词语的含义,实现词语消歧,从而在根据目标图识别待识别文本中的命名实体时,可以提高命名实体识别的准确率。
本实施例的命名实体识别装置可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
图8为本申请实施例八中命名实体识别装置的结构示意图;如图7所示,其包括:基础图生成模块802、规则确定模块804、第一字符节点确定模块806、目标图生成模块808、图神经网络模块810、命名实体识别模块812。
基础图生成模块802,用于生成待识别文本对应的基础图,基础图包括多个字符节点。
规则确定模块804,用于获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系。
第一字符节点确定模块806,用于从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
目标图生成模块808,用于根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图,其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
图神经网络模块810,用于将目标图输入图神经网络模型,通过图神经网络模型确定待识别文本中的各个字符对应的字符编码。
命名实体识别模块812,用于将字符编码输入命名实体识别模型,通过命名实体识别模型识别待识别文本中的命名实体。
可选地,本申请任一实施例中,目标图生成模块808包括:顺序确定模块,用于根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;边增加模块,用于在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
可选地,本申请任一实施例中,目标图生成模块808包括:规则节点确定模块,用于根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;节点连接模块,用于根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
可选地,本申请任一实施例中,若规则节点包括起始规则节点,节点连接模块,包括:起始节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;起始节点连接模块,用于通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括结束规则节点,节点连接模块包括:结束节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;结束节点连接模块,用于通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括过渡规则节点,节点连接模块包括:相邻词语确定模块,用于根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;过渡节点确定模块,用于从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;过渡节点连接模块,用通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
可选地,本申请任一实施例中,目标图生成模块808包括:权重确定模块,用于根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
可选地,本申请任一实施例中,基础图生成模块802包括:字符节点确定模块,用于根据待识别文本中的字符,确定多个字符节点;基础图生成子模块,用于根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
本申请实施例提供一种命名实体识别方案,通过生成待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,其含义较为固定且唯一,从而将目标图输入图神经网络模型,通过图神经网络模型确定待识别文本中的各个字符对应的字符编码后,得到的字符编码中同样融入了词语搭配规则,使得将字符编码输入命名实体识别模型后,通过命名实体识别模型可以字符编码根据正确理解待识别文本中词语的含义,准确地识别出其中的命名实体,实现了词语消歧,可以提高命名实体识别的准确率。
本实施例的命名实体识别装置可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
本申请实施例九提供一种用于电商平台的命名实体识别装置,其包括:基础图生成模块、规则确定模块、第一字符节点确定模块、目标图生成模块。本实施例提供的用于电商平台的命名实体识别装置的结构图可同样参考图7。
基础图生成模块,用于生成用于电商平台的待识别文本对应的基础图,基础图包括多个字符节点。
规则确定模块,用于获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系,词语包括品牌名称和/或商品名称。
第一字符节点确定模块,用于从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
目标图生成模块,用于根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别文本中的品牌名称和/或商品名称,其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
可选地,本申请任一实施例中,目标图生成模块包括:顺序确定模块,用于根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;边增加模块,用于在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
可选地,本申请任一实施例中,目标图生成模块包括:规则节点确定模块,用于根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;节点连接模块,用于根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
可选地,本申请任一实施例中,若规则节点包括起始规则节点,节点连接模块,包括:起始节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;起始节点连接模块,用于通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括结束规则节点,节点连接模块包括:结束节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;结束节点连接模块,用于通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括过渡规则节点,节点连接模块包括:相邻词语确定模块,用于根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;过渡节点确定模块,用于从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;过渡节点连接模块,用通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
可选地,本申请任一实施例中,目标图生成模块包括:权重确定模块,用于根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
可选地,本申请任一实施例中,基础图生成模块包括:字符节点确定模块,用于根据待识别文本中的字符,确定多个字符节点;基础图生成子模块,用于根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
本实施例提供的方案,通过生成用于电商平台的待识别文本对应的基础图,基础图包括多个字符节点;获取与待识别文本匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语之间的语序关系,词语包括品牌名称和/或商品名称;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别文本,还可以表征待识别文本对应的搭配规则,而具有两种或以上含义的词语按照词语搭配规则使用时,词语含义较为固定且唯一,从而根据能够表征待识别文本对应的搭配规则的目标图,可以正确理解待识别文本中词语的含义,实现词语消歧,从而在根据目标图识别待识别文本中的品牌名称和/或商品名称时,可以提高命名实体识别的准确率。
本实施例的用于电商平台的命名实体识别装置可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
本申请实施例十提供一种案件线索的识别装置,其包括:基础图生成模块、规则确定模块、第一字符节点确定模块、目标图生成模块。本实施例提供的案件线索的识别装置的结构图可同样参考图7。
基础图生成模块,用于生成待识别案件文书对应的基础图,基础图包括多个字符节点。
规则确定模块,用于获取与待识别案件文书匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语组合为案件线索的语序关系。
第一字符节点确定模块,用于从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
目标图生成模块,用于根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别案件文书中的案件线索,其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
可选地,本申请任一实施例中,目标图生成模块包括:顺序确定模块,用于根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;边增加模块,用于在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
可选地,本申请任一实施例中,目标图生成模块包括:规则节点确定模块,用于根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;节点连接模块,用于根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
可选地,本申请任一实施例中,若规则节点包括起始规则节点,节点连接模块,包括:起始节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;起始节点连接模块,用于通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括结束规则节点,节点连接模块包括:结束节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;结束节点连接模块,用于通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括过渡规则节点,节点连接模块包括:相邻词语确定模块,用于根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;过渡节点确定模块,用于从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;过渡节点连接模块,用通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
可选地,本申请任一实施例中,目标图生成模块包括:权重确定模块,用于根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
可选地,本申请任一实施例中,基础图生成模块包括:字符节点确定模块,用于根据待识别文本中的字符,确定多个字符节点;基础图生成子模块,用于根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
本实施例提供的方案,通过生成待识别案件文书对应的基础图,基础图包括多个字符节点;获取与待识别案件文书匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语组合为案件线索的语序关系;从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图中不仅能够表征待识别案件文书,还可以表征待识别案件文书对应的搭配规则,而按照词语搭配规则使用时,词语一般可以确定为关键线索,从而根据能够表征待识别案件文书对应的搭配规则的目标图,可以筛选正确的案件线索,提高案件线索识别的准确率。
本实施例的案件线索的识别装置可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
图9为本申请实施例十一中内容识别装置的结构示意图;本申请实施例十一提供一种内容识别装置,其包括:基础图生成模块902、规则确定模块904、第一字符节点确定模块906、目标图生成模块908、结构化模块910。
基础图生成模块902,用于生成待识别起诉书对应的基础图,基础图包括多个字符节点。
规则确定模块904,用于获取与待识别起诉书匹配的词语搭配规则,词语搭配规则包括若干个词语以及若干个词语组合为关键内容的语序关系。
第一字符节点确定模块906,用于从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点。
目标图生成模块908,用于根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入用于表征词语搭配规则的连接边,生成目标图以识别待识别起诉书中的关键内容,其中,用于表征词语搭配规则的连接边与部分或全部若干个第一字符节点连接。
结构化模块910,用于根据识别出的关键内容,将待识别起诉书进行结构化处理。
可选地,本申请任一实施例中,目标图生成模块908包括:顺序确定模块,用于根据词语搭配规则中的词语之间的语序关系,确定若干个第一字符节点的先后顺序;边增加模块,用于在若干个第一字符节点间加入与若干个第一字符节点的先后顺序对应的有向边作为用于表征词语搭配规则的连接边。
可选地,本申请任一实施例中,目标图生成模块908包括:规则节点确定模块,用于根据词语搭配规则中的词语,在基础图中加入与词语搭配规则对应的规则节点;节点连接模块,用于根据词语搭配规则中的词语之间的语序关系,通过用于表征词语搭配规则的连接边,连接规则节点与若干个第一字符节点。
可选地,本申请任一实施例中,若规则节点包括起始规则节点,节点连接模块,包括:起始节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的起始字符对应的字符节点;起始节点连接模块,用于通过用于表征词语搭配规则的连接边,连接起始规则节点与起始字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括结束规则节点,节点连接模块包括:结束节点确定模块,用于根据词语搭配规则中词语之间的语序关系,从若干个第一字符节点中确定与词语搭配规则中词语的结束字符对应的字符节点;结束节点连接模块,用于通过用于表征词语搭配规则的连接边,连接结束规则节点与结束字符对应的字符节点。
可选地,本申请任一实施例中,若规则节点包括过渡规则节点,节点连接模块包括:相邻词语确定模块,用于根据词语搭配规则中的词语之间的语序关系,从词语搭配规则中的词语中确定第一词语和第二词语,其中,第一词语与第二词语相邻且第一词语位于第二词语之前;过渡节点确定模块,用于从若干个第一字符节点中,确定与第一词语的结尾字符对应的字符节点,以及确定与第二词语的开始字符对应的字符节点;过渡节点连接模块,用通过用于表征词语搭配规则的连接边,连接第一词语的结尾字符对应的字符节点与过渡规则节点,以及连接过渡规则节点与第二词语的开始字符对应的字符节点。
可选地,本申请任一实施例中,目标图生成模块908包括:权重确定模块,用于根据词语搭配规则的使用概率,确定用于表征词语搭配规则的连接边的权重。
可选地,本申请任一实施例中,基础图生成模块902包括:字符节点确定模块,用于根据待识别文本中的字符,确定多个字符节点;基础图生成子模块,用于根据待识别文本中的字符间的语序关系,在多个字符节点间加入用于表征字符间的语序关系的连接边,生成基础图。
本实施例提供的方案,通过从基础图的多个字符节点中确定出与词语搭配规则中的词语所对应的若干个第一字符节点;根据词语搭配规则中的词语之间的语序关系,在基础图中至少加入与部分或全部若干个第一字符节点连接的且用于表征词语搭配规则的连接边,即将词语搭配规则融入基础图,生成目标图,使得目标图不仅能够表征待识别起诉书中的字符,还可以表征待识别起诉书对应的搭配规则,而按照词语搭配规则使用词语时,一般可以直接确定词语对应的内容为待识别起诉书中的关键内容,从而根据能够表征待识别起诉书对应的搭配规则的目标图,可以准确识别出待识别起诉书中的关键内容,提高关键内容识别的准确率,并可以根据识别出的关键内容,将待识别起诉书进行结构化处理。
本实施例的内容识别装置可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
图10是本申请执行命名实体识别方法的一些电子设备的硬件结构示意图。
如图10所示,该电子设备可以包括:处理器(processor)1002、通信接口(Communications Interface)1004、存储器(memory)1006、以及通信总线1008。
其中:
处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。
通信接口1004,用于与其它电子设备或服务器进行通信。
处理器1002,用于执行程序1010,具体可以执行上述寄存器分配方法实施例中的相关步骤。
具体地,程序1010可以包括程序代码,该程序代码包括计算机操作指令。
处理器1002可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器1006,用于存放程序1010。存储器1006可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。一个或者多个模块存储在存储器1004中,当被一个或者多个处理器1002执行时,执行上述任意方法实施例中的命名实体识别方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (36)
1.一种命名实体识别方法,包括:
生成待识别文本对应的基础图,所述基础图包括多个字符节点;
获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;
从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的命名实体,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
2.根据利要求1所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语之间的语序关系,确定所述若干个第一字符节点的先后顺序;
在所述若干个第一字符节点间加入与所述若干个第一字符节点的先后顺序对应的有向边作为所述用于表征所述词语搭配规则的连接边。
3.根据权利要求1所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语,在所述基础图中加入与所述词语搭配规则对应的规则节点;
根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点。
4.根据权利要求3所述的方法,其中,
若所述规则节点包括起始规则节点,所述根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点,包括:
根据所述词语搭配规则中词语之间的语序关系,从所述若干个第一字符节点中确定与所述词语搭配规则中词语的起始字符对应的字符节点;
通过所述用于表征所述词语搭配规则的连接边,连接所述起始规则节点与所述起始字符对应的字符节点。
5.根据权利要求3所述的方法,其中,
若所述规则节点包括结束规则节点,所述根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点,包括:
根据所述词语搭配规则中词语之间的语序关系,从所述若干个第一字符节点中确定与所述词语搭配规则中词语的结束字符对应的字符节点;
通过所述用于表征所述词语搭配规则的连接边,连接所述结束规则节点与所述结束字符对应的字符节点。
6.根据权利要求3所述的方法,其中,
若所述规则节点包括过渡规则节点,所述根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点,包括:
根据所述词语搭配规则中的词语之间的语序关系,从所述词语搭配规则中的词语中确定第一词语和第二词语,其中,所述第一词语与所述第二词语相邻且所述第一词语位于所述第二词语之前;
从所述若干个第一字符节点中,确定与所述第一词语的结尾字符对应的字符节点,以及确定与所述第二词语的开始字符对应的字符节点;
通过所述用于表征所述词语搭配规则的连接边,连接所述第一词语的结尾字符对应的字符节点与所述过渡规则节点,以及连接所述过渡规则节点与所述第二词语的开始字符对应的字符节点。
7.根据权利要求1所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,之后,所述方法还包括:
根据所述词语搭配规则的使用概率,确定所述用于表征所述词语搭配规则的连接边的权重。
8.根据权利要求1所述的方法,其中,所述生成待识别文本对应的基础图,包括:
根据所述待识别文本中的字符,确定所述多个字符节点;
根据所述待识别文本中的字符间的语序关系,在所述多个字符节点间加入用于表征所述字符间的语序关系的连接边,生成所述基础图。
9.根据权利要求1所述的方法,其中,所述生成目标图以识别所述待识别文本中的命名实体,包括:
根据所述目标图确定所述待识别文本中的各个字符对应的字符编码;
根据所述字符编码识别所述待识别文本中的命名实体。
10.一种命名实体识别装置,包括:
基础图生成模块,用于生成待识别文本对应的基础图,所述基础图包括多个字符节点;
规则确定模块,用于获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;
第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的命名实体,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
11.一种命名实体识别方法,包括:
生成待识别文本对应的基础图,所述基础图包括多个字符节点;
获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;
从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;
将所述目标图输入图神经网络模型,通过所述图神经网络模型确定所述待识别文本中的各个字符对应的字符编码;
将所述字符编码输入命名实体识别模型,通过所述命名实体识别模型识别所述待识别文本中的命名实体。
12.根据利要求11所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语之间的语序关系,确定所述若干个第一字符节点的先后顺序;
在所述若干个第一字符节点间加入与所述若干个第一字符节点的先后顺序对应的有向边作为所述用于表征所述词语搭配规则的连接边。
13.根据权利要求11所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语,在所述基础图中加入与所述词语搭配规则对应的规则节点;
根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点。
14.根据权利要求11所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,之后,所述方法还包括:
根据所述词语搭配规则的使用概率,确定所述用于表征所述词语搭配规则的连接边的权重。
15.根据权利要求11所述的方法,其中,所述生成待识别文本对应的基础图,包括:
根据所述待识别文本中的字符,确定所述多个字符节点;
根据所述待识别文本中的字符间的语序关系,在所述多个字符节点间加入用于表征所述字符间的语序关系的连接边,生成所述基础图。
16.一种命名实体识别装置,包括:
基础图生成模块,用于生成待识别文本对应的基础图,所述基础图包括多个字符节点;
规则确定模块,用于获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及所述若干个词语之间的语序关系;
第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;
图神经网络模块,用于将所述目标图输入图神经网络模型,通过所述图神经网络模型确定所述待识别文本中的各个字符对应的字符编码;
命名实体识别模块,用于将所述字符编码输入命名实体识别模型,通过所述命名实体识别模型识别所述待识别文本中的命名实体。
17.一种用于电商平台的命名实体识别方法,包括:
生成用于电商平台的待识别文本对应的基础图,所述基础图包括多个字符节点;
获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语之间的语序关系,所述词语包括品牌名称和/或商品名称;
从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的品牌名称和/或商品名称,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
18.根据利要求17所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语之间的语序关系,确定所述若干个第一字符节点的先后顺序;
在所述若干个第一字符节点间加入与所述若干个第一字符节点的先后顺序对应的有向边作为所述用于表征所述词语搭配规则的连接边。
19.根据权利要求17所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语,在所述基础图中加入与所述词语搭配规则对应的规则节点;
根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点。
20.根据权利要求17所述的方法,其中,根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,之后,所述方法还包括:
根据所述词语搭配规则的使用概率,确定所述用于表征所述词语搭配规则的连接边的权重。
21.根据权利要求17所述的方法,其中,所述生成用于电商平台的待识别文本对应的基础图,包括:
根据所述待识别文本中的字符,确定所述多个字符节点;
根据所述待识别文本中的字符间的语序关系,在所述多个字符节点间加入用于表征所述字符间的语序关系的连接边,生成所述基础图。
22.一种用于电商平台的命名实体识别装置,其中,包括:
基础图生成模块,用于生成用于电商平台的待识别文本对应的基础图,所述基础图包括多个字符节点;
规则确定模块,用于获取与所述待识别文本匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语之间的语序关系,所述词语包括品牌名称和/或商品名称;
第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别文本中的品牌名称和/或商品名称,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
23.一种案件线索的识别方法,包括:
生成待识别案件文书对应的基础图,所述基础图包括多个字符节点;
获取与所述待识别案件文书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为案件线索的语序关系;
从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别案件文书中的案件线索,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
24.根据利要求23所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语之间的语序关系,确定所述若干个第一字符节点的先后顺序;
在所述若干个第一字符节点间加入与所述若干个第一字符节点的先后顺序对应的有向边作为所述用于表征所述词语搭配规则的连接边。
25.根据权利要求23所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语,在所述基础图中加入与所述词语搭配规则对应的规则节点;
根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点。
26.根据权利要求23所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,之后,所述方法还包括:
根据所述词语搭配规则的使用概率,确定所述用于表征所述词语搭配规则的连接边的权重。
27.根据权利要求23所述的方法,其中,所述生成待识别案件文书对应的基础图,包括:
根据所述待识别文本中的字符,确定所述多个字符节点;
根据所述待识别文本中的字符间的语序关系,在所述多个字符节点间加入用于表征所述字符间的语序关系的连接边,生成所述基础图。
28.一种案件线索的识别装置,包括:
基础图生成模块,用于生成待识别案件文书对应的基础图,所述基础图包括多个字符节点;
规则确定模块,用于获取与所述待识别案件文书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为案件线索的语序关系;
第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别案件文书中的案件线索,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接。
29.一种内容识别方法,包括:
生成待识别起诉书对应的基础图,所述基础图包括多个字符节点;
获取与所述待识别起诉书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为关键内容的语序关系;
从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别起诉书中的关键内容,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;
根据识别出的关键内容,将所述待识别起诉书进行结构化处理。
30.根据利要求29所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语之间的语序关系,确定所述若干个第一字符节点的先后顺序;
在所述若干个第一字符节点间加入与所述若干个第一字符节点的先后顺序对应的有向边作为所述用于表征所述词语搭配规则的连接边。
31.根据权利要求29所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中加入用于表征所述词语搭配规则的连接边,包括:
根据所述词语搭配规则中的词语,在所述基础图中加入与所述词语搭配规则对应的规则节点;
根据所述词语搭配规则中的词语之间的语序关系,通过所述用于表征所述词语搭配规则的连接边,连接所述规则节点与所述若干个第一字符节点。
32.根据权利要求29所述的方法,其中,所述根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,之后,所述方法还包括:
根据所述词语搭配规则的使用概率,确定所述用于表征所述词语搭配规则的连接边的权重。
33.根据权利要求29所述的方法,其中,所述生成待识别起诉书对应的基础图,包括:
根据所述待识别文本中的字符,确定所述多个字符节点;
根据所述待识别文本中的字符间的语序关系,在所述多个字符节点间加入用于表征所述字符间的语序关系的连接边,生成所述基础图。
34.一种内容识别装置,包括:
基础图生成模块,用于生成待识别起诉书对应的基础图,所述基础图包括多个字符节点;
规则确定模块,用于获取与所述待识别起诉书匹配的词语搭配规则,所述词语搭配规则包括若干个词语以及若干个所述词语组合为关键内容的语序关系;
第一字符节点确定模块,用于从所述基础图的多个字符节点中确定出与所述词语搭配规则中的词语所对应的若干个第一字符节点;
目标图生成模块,用于根据所述词语搭配规则中的词语之间的语序关系,在所述基础图中至少加入用于表征所述词语搭配规则的连接边,生成目标图以识别所述待识别起诉书中的关键内容,其中,所述用于表征所述词语搭配规则的连接边与部分或全部所述若干个第一字符节点连接;
结构化模块,用于根据识别出的关键内容,将所述待识别起诉书进行结构化处理。
35.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9、11-15、17-21、23-27、29-33任一项所述方法对应的操作。
36.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9、11-15、17-21、23-27、29-33任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911425813.4A CN113128226B (zh) | 2019-12-31 | 2019-12-31 | 命名实体识别方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911425813.4A CN113128226B (zh) | 2019-12-31 | 2019-12-31 | 命名实体识别方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128226A true CN113128226A (zh) | 2021-07-16 |
CN113128226B CN113128226B (zh) | 2024-09-27 |
Family
ID=76771028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911425813.4A Active CN113128226B (zh) | 2019-12-31 | 2019-12-31 | 命名实体识别方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128226B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN108182179A (zh) * | 2018-01-29 | 2018-06-19 | 北京神州泰岳软件股份有限公司 | 一种自然语言处理方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109460552A (zh) * | 2018-10-29 | 2019-03-12 | 朱丽莉 | 基于规则和语料库的汉语语病自动检测方法及设备 |
CN110188168A (zh) * | 2019-05-24 | 2019-08-30 | 北京邮电大学 | 语义关系识别方法和装置 |
WO2019172849A1 (en) * | 2018-03-06 | 2019-09-12 | Agency For Science, Technology And Research | Method and system for generating a structured knowledge data for a text |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
-
2019
- 2019-12-31 CN CN201911425813.4A patent/CN113128226B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN108182179A (zh) * | 2018-01-29 | 2018-06-19 | 北京神州泰岳软件股份有限公司 | 一种自然语言处理方法及装置 |
WO2019172849A1 (en) * | 2018-03-06 | 2019-09-12 | Agency For Science, Technology And Research | Method and system for generating a structured knowledge data for a text |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109460552A (zh) * | 2018-10-29 | 2019-03-12 | 朱丽莉 | 基于规则和语料库的汉语语病自动检测方法及设备 |
CN110188168A (zh) * | 2019-05-24 | 2019-08-30 | 北京邮电大学 | 语义关系识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
严红;陈兴蜀;王文贤;王海舟;殷明勇;: "基于深度神经网络的法语命名实体识别模型", 计算机应用, no. 05, 21 January 2019 (2019-01-21) * |
Also Published As
Publication number | Publication date |
---|---|
CN113128226B (zh) | 2024-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488426B (zh) | 一种查询意图确定方法、装置及处理设备 | |
Xiao et al. | User interoperability with heterogeneous IoT devices through transformation | |
CN111695345B (zh) | 文本中实体识别方法、以及装置 | |
CN109246230B (zh) | 信息推送方法及装置 | |
CN107506181A (zh) | 业务处理、数据处理方法、装置以及电子设备 | |
CN110020427B (zh) | 策略确定方法和装置 | |
CN113094550A (zh) | 视频检索方法、装置、设备和介质 | |
CN110795541B (zh) | 文本查询方法、装置、电子设备及计算机可读存储介质 | |
CN108566615A (zh) | 信息推送方法、装置及客户端 | |
CN109271587A (zh) | 一种页面生成方法和装置 | |
CN113221555A (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN114860905A (zh) | 意图识别方法、装置及设备 | |
CN113779427B (zh) | 日程地址识别方法、设备、存储介质和软件程序产品 | |
CN113641894A (zh) | 一种信息推荐的方法及装置 | |
CN111274813A (zh) | 语言序列标注方法、装置存储介质及计算机设备 | |
CN110390015B (zh) | 一种数据信息处理方法、装置及系统 | |
CN110489563B (zh) | 图结构的表示方法、装置、设备及计算机可读存储介质 | |
CN113128226B (zh) | 命名实体识别方法、装置、电子设备及计算机存储介质 | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN115017915B (zh) | 一种模型训练、任务执行的方法及装置 | |
CN115221523A (zh) | 数据处理方法、装置及设备 | |
CN114926687A (zh) | 一种分类模型的训练方法及装置 | |
CN111753548B (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN109145084B (zh) | 数据处理方法、数据处理装置和服务器 | |
CN114840743A (zh) | 一种模型推荐方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |