CN113569569A - 案发地址提取方法、电子设备及计算机可读存储介质 - Google Patents

案发地址提取方法、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113569569A
CN113569569A CN202110879712.5A CN202110879712A CN113569569A CN 113569569 A CN113569569 A CN 113569569A CN 202110879712 A CN202110879712 A CN 202110879712A CN 113569569 A CN113569569 A CN 113569569A
Authority
CN
China
Prior art keywords
address
case
character
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110879712.5A
Other languages
English (en)
Inventor
元方
黄静文
童随兵
张凡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enc Data Service Co ltd
Original Assignee
Enc Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enc Data Service Co ltd filed Critical Enc Data Service Co ltd
Priority to CN202110879712.5A priority Critical patent/CN113569569A/zh
Publication of CN113569569A publication Critical patent/CN113569569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种案发地址提取方法、电子设备及计算机可读存储介质,方法包括:将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本;根据案情文本中每个字符的类别,确定案发地址在案情文本中的位置;根据位置,从案情文本中提取案发地址;电子设备包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种案发地址提取方法;计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述的一种案发地址提取方法。本发明基于全自动的主动学习模型,可以从案情文本中自动化智能提取准确的案发地址,从而实现对提取的案发地址数据进行结构化存储。

Description

案发地址提取方法、电子设备及计算机可读存储介质
技术领域
本发明属于信息提取技术领域,尤其涉及一种案发地址提取方法、电子设备及计算机可读存储介质。
背景技术
在日常警务办公中,报警案情与大众生活紧密相关。案情记录中蕴含了大量信息,它记录了时间/地点/犯罪事务信息。这种数据量大,但是没有很好的工具或者系统能够对这其中的信息进行挖掘、提取,再进行结构化存储,只能依赖人工总结、筛选、记录,最后把纸笔信息进行数字化存储。这种方式缺陷明显,速度慢,依赖人工劳动力,而且需要人工复查才能确保准确性。除此外,人为主观因素可能导致提取文本信息中内容,会存在一致性问题。传统的自动化办公工具,可以起到很好的辅助作用,可以促进整个流程的生产效率,但是依然依赖人工操作,很难做到完全自动化的智能提取,与智能结构化。
因此,有必要提供一种可以从案情文本中自动化智能提取准确的案发地址的方案,从而可以对提取的案发地址数据进行结构化存储。
发明内容
基于此,针对上述技术问题,提供一种自动、准确的案发地址提取方法、电子设备及计算机可读存储介质。
本发明采用的技术方案如下:
一方面,提供一种案发地址提取方法,其特征在于,包括:
将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本,所述字符类别标识包括非地址类别标识以及地址类别标识;
其中,训练所述模型的样本集由多个包含案发地址的案情文本构成;
根据所述案情文本中每个字符的类别,确定案发地址在所述案情文本中的位置;
根据所述位置,从所述案情文本中提取案发地址。
另一方面,提供一种电子设备,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种案发地址提取方法。
再一方面,提供一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,其特征在于,所述一个或多个程序当被处理器执行时,实现上述的一种案发地址提取方法。
本发明可以从案情文本中自动化智能提取准确的案发地址,从而实现对提取的案发地址数据进行结构化存储。
附图说明
下面结合附图和具体实施方式对本发明进行详细说明:
图1为本发明的流程图;
图2为本发明的模型的结构示意图。
具体实施方式
如图1所示,本说明书实施例提供一种案发地址提取方法,包括:
S101、将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本,字符类别标识包括非地址类别标识以及地址类别标识。
在一种实施方式中,非地址类别标识为O,地址类别标识包括地址首字符标识、地址尾字符标识以及地址首尾之间字符标识,分别为B_ADD、E_ADD以及I_ADD。
如案情文本为:XXXXXXX在XX路10号兄弟饭店发生了一起抢劫,将该案情文本输入模型后输出:
OOOOOOOO
B_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDE_ADDOOOOOOO。
当然,对于地址类别标识也可以只用一种标识。
其中,训练上述模型的样本集由多个包含案发地址的案情文本构成,样本集制作过程如下:
a、获取预设区域内的全量标准地址,对全量标准地址进行分词,构成地址词库corpus。
以预设区域设为上海为例,全量标准地址就是指上海市所有地址的标准地址,标准地址如:上海市浦东新区金海路2011号新奥广场。
在一种实施方式中,对全量标准地址进行分词,进一步包括:
1)将规定的地理行政单位词以及具备地址属性的词加入jieba工具分词词表。
可以采用国家统计局规定的地理行政单位词,从国家统计局网站可以获得省/市/县区/镇/村/路的数据表,具备地址属性的词诸如:XX门口、XX楼下、候车区、候车处、停车区、停车处、排队区、排队处等等。
加入jieba工具分词词表后就可以知道每个省下的所有市,每个市下的所有从属地址,以此类推。
2)开启jieba精确模式进行分词,这个模式可以优先把整个地址词切分出来,当整个地址词还可以切分的时候,会进行再次分词,由大词变成小词,这样尽量减小了分词的颗粒度,可以提高步骤b中的匹配命中率,避免匹配失败。
如对“上海市闵行区虹莘路2166号上海文来中学”进行分词,分词后为:上海市,闵行区,虹莘路,2166号,上海,文来中学
而不是:上海市,闵行区,虹莘路,2166号,上海文来中学
b、对各报警数据分别进行如下处理:
1)从报警数据的电话信息中,确定报警人当时所在的地址的字符串,记作address_p。
报警数据包括电话信息以及案情文本,报警人通过电话报警时,一般警务系统会自动锁定报警人的电话,然后根据电话定位出地址,同时会记录报警人的报警内容,形成案情文本,案情文本包含案件的详情。
2)将报警数据的案情文本与地址词库corpus进行匹配,获得匹配成功的地址词,构成集合address_w。
其中,address_w中的元素记为address_u。
如将案情文本:上海市闵行区虹莘路2166号上海文来中学与地址词库corpus进行匹配,发现命中的词为:
上海市,闵行区,虹莘路,2166号,上海,文来中学
这些词组成的集合记做address_w,其元素记做address_u。
当集合address_w中的多个address_u在对应的案情文本中紧密连接中间无其它字符时,将多个address_u合并为一个address_u。
紧密连接中间无其它字符的情况,说明多个address_u原本属于一个整体,这样符合语言规范,如果不合并,很可能在识别的时候将一些非地址,或者长度较短的词,或者非案发地址的词,错误识别成案发地址短语。
合并后可以减低模型的复杂度,如果模型复杂度提升了,模型过拟合的概率也会提升,对应模型的识别准确率会降低。
3)对集合address_w中的地址词进行进标准化,构成集合address_c。
如以案情文本:杨某在文来中学门口被一男子从身后XXXX,为例:
通过与地址词库corpus进行匹配得到:
文来中学,门口。
合并为:文来中学门口。
然后标准化为:上海市闵行区虹莘路2166号上海文来中学。
c、当某报警数据对应的address_p与集合address_c中的任意标准化地址匹配成功时,则将该报警数据的案情文本加入样本集。
由于案情文本有四种情况:文本描述中无地址信息;文本描述中有一个地址短语,并且该地址就是案发地址;文本描述中有地址短语,但是这些地址短语都不是案发地址;文本描述中有多个地址短语,其中只有一个地址短语是案发地址,所以需要选择那些有案发地址的文本,才可以作为模型训练样本,大多数情况下,报警人通过110报案时,案发地点就是打电话110的时候的地点。
因此,通过步骤c匹配后可以确保加入样本集案情文本均包含案发地址。
d、将样本集中的每个案情文本分别转换为以每个字符的字符类别标识来表示,分别作为训练的目标值。
在训练时,转换后的结果作为目标值,而模型输出的是预测值,通过目标函数对目标值和预测值进行比对,优化模型的参数。
为了在转换时,便于区分地址和非地址,步骤d还包括:
1)根据当前案情文本在步骤c中匹配成功的标准化地址,反推确定集合address_w中与该匹配成功的标准化地址对应的address_u。
2)在当前案情文本中的address_u前后添加分隔符。
分隔符可以采用&,如案情文本:XXXXXXX在XX路10号兄弟饭店发生了一起抢劫,加入分隔符后为:
XXXXXXX在&XX路10号兄弟饭店&发生了一起抢劫,转换后为:
OOOOOOOO
B_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDEOOOOOOO。
使用B_ADD,I_ADD,E_ADD进行标识地址字符是一种优选的实施方式,这样可以很好的让模型去学习到目标词的边界信息,比如某些字在地址词中有高概率是出现在词头部或者尾部。
如图2所示,模型可以采用bert+crf的结构,其被训练为:
通过bert模块从输入的案情文本中提取对应每个输入字符的向量,构成高维度向量,再通过bert模块的nn.Linear层将每个向量进行线性变换,输出每个字符的编码得分,比如{O:0.7,B_ADD:2.3,I_ADD:0.4,E_ADD:0.3}。
nn.Linear层的输出,会作为crf模块的输入,通过crf模块将nn.Linear层的输出进行约束,输出最终预测结果:每个字符对应的字符类别标识。
bert模型输出的字符类别标识之间的约束不佳,可能会出现语法错误,B_ADDI_ADDI_ADDE_ADD可能识别成B_ADDE_ADDI_ADDEI_ADDE或者B_ADDOOI_ADD或者I_ADDOB_ADD或者E_ADDOB_ADD。比如:大(B_ADD)门(I_ADD)口(E_ADD)发(O)生(O)了(O)错误识别成大(B_ADD)门(O)口(O)发(B_ADD)生(O)了(O)。
故采用crf模块的作用就是为了通过一些约束来保证最终预测结果是有效的,这些约束可以在训练数据时被crf模块自动学习得到,句子的开头应该是“B_ADD”或“O”,而不是“I_ADD”,通过约束,错误的预测序列将会大大减少。
每个字有四种字符类别标识,每个字则有4个节点(每个字有四种可能的类别,每一种可能的结果可以看做一个节点,当前字符的类别(节点)转移到前或者后一个字符的类别(节点)时,就完成了一个节点连接到另外一个节点转移的过程),字中节点转移到下个字的节点就构成了边,多个边就组成了一条路径。目标函数相当于是从kN(k为字符的类别数量,这里为4,N为案情文本的字符数)条路径中找到一个权重最大的路径,因为最终的正确路径只有一条即为yture,使这个概率最高。
训练采用的目标函数为:
Figure BDA0003191682830000061
其中:
X为xi的集合,也即为模型的输入字符串,字符数量记做n,xi为位置i的字符;
Ytrue为模型对X的正确预测结果,即正确的路径;
目标函数的分母为所有路径的得分总和,即
Figure BDA0003191682830000062
Figure BDA0003191682830000063
该式中的
Figure BDA0003191682830000064
Figure BDA0003191682830000065
Yi为模型对X的预测结果中的第i种,即第i条路径,Yx为所有路径集合,yi代表位置i的字符的字符类别,yi+1代表位置i+1的字符的字符类别,A代表转移矩阵,它的得分是由crf模块学习得到,
Figure BDA0003191682830000066
为从yi转移到yi+1的得分,
Figure BDA0003191682830000067
表示位置i的字符xi为yi类别的得分,组成的集合为发射矩阵,由nn.Linear层输出得到的;
目标函数的分子为正确路径的得分;
e为自然对数的底数,亦称之为欧拉数(Euler's Number),是一个无限不循环小数。
当然,作为一种次选的实施方式,也可以不区分地址字符的头尾和中部,比如只采用两种编码O与ADD,其中O表示非地址类别,ADD表示地址类别,但是,这样模型无法识别出字与字的类别转移规则。
比如O转移到ADD(当前字为O,后面字为ADD),ADD转移到O(当前字为ADD,后面字为O),以及ADD转移到ADD(当前字为ADD,后面字为ADD),这种转移的分数(概率)意义不大。
相反,B_ADD到I_ADD,I_ADD到E_ADD完全合乎语法规则(这种转移的得分就会很大),而E_ADD到I_ADD则完全不符合语法规则(这种转移的得分就会很小)。
S102、根据案情文本中每个字符的类别,确定案发地址在该案情文本中的位置;
S103、根据确定的位置,从上述案情文本中提取案发地址。
基于同一发明构思,本说明书实施例还提供一种电子设备,包括存储模块,存储模块包括由处理器加载并执行的指令,指令在被执行时使处理器执行本说明书上述一种案发地址提取方法部分中描述的根据本发明各种示例性实施方式的步骤。
其中,存储模块可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
基于同一发明构思,本说明书实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,一个或多个程序当被处理器执行时,实现本说明书上述一种案发地址提取方法部分中描述的根据本发明各种示例性实施方式的步骤。
计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。计算机可读存储介质的更具体示例包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims (10)

1.一种案发地址提取方法,其特征在于,包括:
将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本,所述字符类别标识包括非地址类别标识以及地址类别标识;
其中,训练所述模型的样本集由多个包含案发地址的案情文本构成;
根据所述案情文本中每个字符的类别,确定案发地址在所述案情文本中的位置;
根据所述位置,从所述案情文本中提取案发地址。
2.根据权利要求1所述的一种案发地址提取方法,其特征在于,所述样本集通过以下步骤制作:
a、获取预设区域内的全量标准地址,对所述全量标准地址进行分词,构成地址词库corpus;
b、对各报警数据分别进行如下处理:
从报警数据的电话信息中,确定报警人当时所在的地址的字符串,记作address_p;
将所述报警数据的案情文本与地址词库corpus进行匹配,获得匹配成功的地址词,构成集合address_w;
对所述集合address_w中的地址词进行进标准化,构成集合address_c;
c、当某报警数据对应的address_p与集合address_c中的任意标准化地址匹配成功时,则将该报警数据的案情文本加入样本集;
d、将样本集中的每个案情文本分别转换为以每个字符的字符类别标识来表示,分别作为训练的目标值。
3.根据权利要求2所述的一种案发地址提取方法,其特征在于,所述对所述全量标准地址进行分词,进一步包括:
将规定的地理行政单位词以及具备地址属性的词加入jieba工具分词词表;
开启jieba精确模式进行分词。
4.根据权利要求3所述的一种案发地址提取方法,其特征在于,还包括:
address_w中的元素记为address_u,当所述集合address_w中的多个address_u在对应的案情文本中紧密连接中间无其它字符时,将所述多个address_u合并为一个address_u。
5.根据权利要求4所述的一种案发地址提取方法,其特征在于,所述步骤d还包括:
根据当前案情文本在步骤c中匹配成功的标准化地址,反推确定集合address_w中与该匹配成功的标准化地址对应的address_u;
在所述当前案情文本中的address_u前后添加分隔符。
6.根据权利要求5所述的一种案发地址提取方法,其特征在于,所述模型采用bert+crf的结构,所述模型被训练为:
通过bert模块从输入的案情文本中提取对应每个输入字符的向量,构成高维度向量,再通过bert模块的nn.Linear层将每个向量进行线性变换,输出每个字符的编码得分;
通过crf模块将nn.Linear层的输出进行约束,输出最终预测结果。
7.根据权利要求6所述的一种案发地址提取方法,其特征在于,所述非地址类别标识为O,地址类别标识包括地址首字符标识、地址尾字符标识以及地址首尾之间字符标识,分别为B_ADD、E_ADD以及I_ADD。
8.根据权利要求7所述的一种案发地址提取方法,其特征在于,训练所述模型采用的目标函数为:
Figure FDA0003191682820000031
其中:
X为xi的集合,也即为模型的输入字符串,字符数量记做n,xi为位置i的字符;
Ytrue为模型对X的正确预测结果,即正确的路径;
目标函数的分母为所有路径的得分总和,即
Figure FDA0003191682820000032
Figure FDA0003191682820000033
该式中的
Figure FDA0003191682820000034
Figure FDA0003191682820000035
Yi为模型对X的预测结果中的第i种,即第i条路径,Yx为所有路径集合,yi代表位置i的字符的字符类别,yi+1代表位置i+1的字符的字符类别,A代表转移矩阵,它的得分是由crf模块学习得到,
Figure FDA0003191682820000036
为从yi转移到yi+1的得分,
Figure FDA0003191682820000037
表示位置i的字符xi为yi类别的得分,组成的集合为发射矩阵,由nn.Linear层输出得到的;
目标函数的分子为正确路径的得分;e为自然对数的底数,亦称之为欧拉数,是一个无限不循环小数。
9.一种电子设备,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行根据权利要求1-8任一项所述的一种案发地址提取方法。
10.一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,其特征在于,所述一个或多个程序当被处理器执行时,实现权利要求1-8任一项所述的一种案发地址提取方法。
CN202110879712.5A 2021-08-02 2021-08-02 案发地址提取方法、电子设备及计算机可读存储介质 Pending CN113569569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110879712.5A CN113569569A (zh) 2021-08-02 2021-08-02 案发地址提取方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110879712.5A CN113569569A (zh) 2021-08-02 2021-08-02 案发地址提取方法、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113569569A true CN113569569A (zh) 2021-10-29

Family

ID=78169864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110879712.5A Pending CN113569569A (zh) 2021-08-02 2021-08-02 案发地址提取方法、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113569569A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701552A (zh) * 2023-04-07 2023-09-05 北京百度网讯科技有限公司 案件管辖机构的确定方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN111090886A (zh) * 2019-12-31 2020-05-01 新奥数能科技有限公司 脱敏数据确定方法、装置、可读介质及电子设备
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN112925922A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 获取地址的方法、装置、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN112925922A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 获取地址的方法、装置、电子设备及介质
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111090886A (zh) * 2019-12-31 2020-05-01 新奥数能科技有限公司 脱敏数据确定方法、装置、可读介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔玲玲: "面向少量标注数据的中文命名实体识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 08, pages 138 - 1414 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701552A (zh) * 2023-04-07 2023-09-05 北京百度网讯科技有限公司 案件管辖机构的确定方法、装置及电子设备
CN116701552B (zh) * 2023-04-07 2023-12-22 北京百度网讯科技有限公司 案件管辖机构的确定方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US7493251B2 (en) Using source-channel models for word segmentation
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN112784581B (zh) 文本纠错方法、装置、介质及电子设备
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112836514A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN112528649B (zh) 针对多语言混合文本的英文拼音识别方法和系统
CN110941720A (zh) 一种基于知识库的特定人员信息纠错方法
CN111178051A (zh) 建筑信息模型自适应的中文分词方法及装置
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置
CN113569569A (zh) 案发地址提取方法、电子设备及计算机可读存储介质
CN114065744A (zh) 中文电子病历手术操作文本的icd自动编码方法及装置
CN114298048A (zh) 命名实体识别方法及装置
WO2024138859A1 (zh) 跨语言实体词检索方法、装置、设备及存储介质
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN116069946A (zh) 一种基于深度学习的生物医学知识图谱构建方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
CN103474063A (zh) 语音辨识系统以及方法
CN114328902A (zh) 文本标注模型构建方法和装置
CN116384385B (zh) 一种基于动态集成学习的卫星频轨实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination