CN109190110B - 一种命名实体识别模型的训练方法、系统及电子设备 - Google Patents
一种命名实体识别模型的训练方法、系统及电子设备 Download PDFInfo
- Publication number
- CN109190110B CN109190110B CN201810868424.8A CN201810868424A CN109190110B CN 109190110 B CN109190110 B CN 109190110B CN 201810868424 A CN201810868424 A CN 201810868424A CN 109190110 B CN109190110 B CN 109190110B
- Authority
- CN
- China
- Prior art keywords
- training
- named entity
- recognition model
- entity recognition
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000003796 beauty Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000000744 eyelid Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术,提供了一种命名实体识别模型的训练方法,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。基于本发明实施例所提供的训练方法,使得命名实体识别模型的识别结果更加准确,并满足实际需求。此外,本发明还提供一种命名实体识别模型的训练系统。
Description
技术领域
本发明涉及自然语言处理技术,尤其是关于一种命名实体识别模型的训练方法、系统及电子设备。
背景技术
命名实体(named entity)是指人名、机构名、地名以及其他所有以名称为标识的实体。在自然语言处理技术中,分词的标注也会包含命名实体标注。
具体而言,自然语言处理的过程中,很多时候需要有监督学习才能得到想要的结果,例如信息抽取。在信息抽取时,首先需要做命名实体识别,在不同领域,需要提取的实体往往差别很大,而即使是在同一个领域,如果目的或者意图不一样,实体的识别模板也会有所差别。
然而,现有技术中,命名实体标注基本依靠人工进行处理,而实体标注需基于大量的语料数据分析得出,往往会耗费非常多的人力物力;更近一步的,在一个具体的应用场景下,由于应用领域不同、分析目的不同其需要标注的命名实体也会不一样,从而无法实现对语料的精准标注。
发明内容
为了解决上述问题,本发明提供了一种命名实体识别模型的训练方法,所述方法包含:
从语料库中获取未标注的语料数据;
基于类别词库对所述语料数据进行预标注;
修正所述预标注结果,得到训练文本;
基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。
在一实施方式中,所述类别词库的生成方法包含:
收集应用领域中的命名实体;
从所述命名实体中提取关键词,加入所述应用领域的语料词库;
基于预设算法学习得到所述关键词的语义特征;
对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征;
基于所述关键词的语义特征、所述分词的语义特征进行相似度匹配,确定与所述关键词最接近的预设数量个所述分词,加入所述类别词库。
较于现有技术而言,本发明实施例所提供的命名实体识别模型的训练方法是基于实际应用领域的类别词库进行训练,其训练结果更贴近实际的应用需求,且准确性更高,并且无需通过人工对命名实体进行单个收集,而只需进行结果确认,从而节省人力。
在一实施方式中,在所述加入所述类别词库前更包含人工对所述预设数量个所述分词进行确认,确认通过后,加入所述类别词库。
在一实施方式中,在所述收集应用领域中的命名实体后,对所述命名实体进行类别划分,在将所述分词加入所述类别词库时,同时对所述分词的所属类别进行标注。
在一实施方式中,所述修正所述预标注结果,得到训练文本具体包含:基于预设修正规则及人工确认对所述预标注结果进行修改、补漏。
在一实施方式中,所述命名实体识别模型基于LSTM算法及CRF算法实现。
此外,本发明实施例还提供一种命名实体模型训练系统,包含服务器及用户操作界面,所述用户操作界面用于接收用户输入的系统初始配置信息、数据修正结果,并发送至服务器;所述服务器用于接收所述用户操作界面发送的系统初始配置信息、数据修正结果,执行上述的命名实体识别模型的训练方法,并输出训练结果至所述用户操作界面;所述用户操作界面接收并显示所述训练结果。
本发明实施例所提供的命名实体识别模型的训练系统,操作简单、人工介入少,可提升处理速率和准确性。
本发明还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的命名实体模型的训练方法。
本发明另提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述命名实体识别模型的训练方法。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1绘示本发明一较佳实施例所提供的命名实体识别模型训练方法流程图;
图2绘示图1所示实施例中类别词库的生成方法流程图;
图3绘示本发明一实施例所提供的命名实体识别训练系统结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
请参照图1,图1绘示本发明一较佳实施例所提供的命名实体识别模型训练方法流程图。
在本实施例中,命名实体识别模型可基于LSTM算法及CRF算法实现。
如图1所示,本实施例所提供的命名实体训练方法包含步骤:
步骤101,从语料库中获取未标注的语料数据。
一般来说,语料库中的原始语料数据是基于特定的应用领域来进行收集的,例如社交网络应用、金融客服系统、旅游信息服务等。
例如,可从维基百科的中文离线数据库,提取目标页面信息,并保存在文本中;或者人工编写爬虫程序,从目标网站上获取文本信息,也可以是直接从系统服务器数据库获取,本发明并不作限制。
在收集到原始语料之后,考虑到爬取到初始语料中存在一些重复、无效的噪音,例如网页标签、无效字符等,可以通过过滤、去噪音等操作进行去噪,以保证语料数据的质量。
在语料库的具体应用中,还需对语料数据进行预处理,所述预处理可包含分词、词性标注、命名实体识别等,本实例所提供的命名实体识别模型即用于对语料数据进行命名实体识别。
步骤102,基于类别词库对所述语料数据进行预标注。
具体而言,可基于BIO实体标注方法对语料数据中的命名实体进行预标注。
在本实施例中,在对语料数据进行预标注时,是基于类别词库来确定具体的命名实体名称的,也就是说预标注的具体内容是来源于类别词库。
具体而言,本实施例所提供的类别词库并非现有技术中所使用的通用词库,而是基于实际的应用领域进行收集、分析、处理获得。
请参照图2,图2绘示图1所示实施例中类别词库的生成方法流程图。
如图2所示,所述类别词库的生成方法具体包含步骤:
步骤201,收集应用领域中的命名实体。
其中,命名实体可从应用领域的文本数据中进行分词抽取及人工修正得到和或从应用领域对应的专业名词库中抽取获得。以应用领域为医疗美容为例,命名实体的收集可基于医疗、美容等相关领域的专业网站、服务系统及专业词库中获得。
由于命名实体是基于实际的应用领域进行收集的,则在后续的应用中,更能符合对应应用领域的语料分析需求。
更进一步的,在本发明所提供的实施例中,还可以对收集得到的命名实体进行类别划分。
以医疗美容行业为例,实体类别可包含地址、姓名、指标数值、手机号、身体部位名称、美容项目名称、疾病名称、症状等;“我叫小明,我想割双眼皮”句子中包含了“姓名”和“整容项目”两个实体类别,其中,“小明”属于姓名类别,“割双眼皮”属于整容项目类别。
而在后续的分词标注中,可增加对应的实体类别,从而使得在后续的分析应用中,可针对用户所关注的某些类别进行数据提取。
步骤202,从所述命名实体中提取关键词,加入所述应用领域的语料词库。
具体而言,可基于新词发现算法(hmm)获取暂未收录的关键词,并加入语料词库中。
步骤203,基于预设算法学习得到所述关键词的语义特征。
在实施中,可使用word2vec算法学习语料词库中每个关键词的语义特征。
步骤204,对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征。
同样的,可使用word2vec算法学习得到各分词的语义特征。
步骤205,基于所述关键词的语义特征、所述分词的语义特征进行相似度匹配,确定与所述关键词最接近的预设数量个所述分词,加入所述类别词库。
在确定了各关键词、各分词的语义特征后,可基于语义特征向量进行相似度计算,获得与每个关键词最接近的预设数量个分词,确定为命名实体,并加入到类别词库中。
其中,预设数量可以是一个固定的取值,例如最接近的5个分词,或者是超过相似度阈值的所有分词,本发明不作限制。
更进一步的,本发明的实施例中,在将该些分词加入所述类别词库前更包含人工对给些分词进行确认,确认通过后,再加入类别词库。从而保证所选取的分词的准确性。
通过上述方法,可得到针对实际应用领域的类别词库,以供后续分析训练所使用,从而可提升分析、标注结果的准确性。
请再次回到图1。
步骤103,修正所述预标注结果,得到训练文本。
经过步骤102的预标注后,需对预标注的结果进行修正。具体的修正方法可包含基于预设修正规则及人工确认对所述预标注结果进行修改、补漏。
其中预设修正规则为基于数据特征所提取的判定规则,例如手机号码都是11位的数字,可以用正则表达式匹配;人物称呼经常会用到xx医生、xx小姐、xx先生,可以用规则进行标注;疾病名称经常会伴有xx病,xx症;指标数值后面很多会有单位等。通过该些预设修正规则可对预标注结果进行检验、修改,再经过人工的确认,已最终完成所述修正过程。
步骤104,基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。
其中预设阈值可以是经过人工确认后的准确率到达一个预设的数值,则可确定命名实体识别模型训练完成。
由此可见,本发明实施例所提供的命名实体识别模型的训练方法是基于实际应用领域的类别词库进行训练,其训练结果更贴近实际的应用需求,且准确性更高,并且无需通过人工对命名实体进行单个收集,而只需进行结果确认,从而节省人力。
基于同样的发明构思,本发明还提出一种命名实体识别模型的训练系统。
请参照图3,图3绘示本发明一实施例所提供的命名实体识别训练系统结构示意图。
训练系统300包含服务器301及用户操作界面302,两者通信连接。
具体而言,用户操作界面302可用于接收用户输入的系统初始配置信息、数据修正结果,并发送至服务器301。
在实施中,用户操作界面302可包含显示器、键盘、鼠标等输入输出设备。
服务器301可用于接收用户操作界面302发送的系统初始配置信息、数据修正结果,执行图1实施例所提供的命名实体识别模型的训练方法,并输出训练结果至用户操作界面302。
用户操作界面302接收并显示训练结果,并接收用户的操作指示。
值得注意的是,用户操作界面302是基于服务器301执行所述训练方法的过程中,依次收集系统初始配置信息、数据修正结果及操作指示,而并非一次性收集。
本发明实施例所提供的命名实体识别模型的训练系统,操作简单、人工介入少,可提升处理速率和准确性。
本发明另一实施例涉及一种电子设备,包括至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行图1所示实施例中的命名实体识别模型的训练方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明又一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时,实现上述方法实施例。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种命名实体识别模型的训练方法,其特征在于,所述方法包含:
从语料库中获取未标注的语料数据;
基于类别词库对所述语料数据进行预标注;
修正所述预标注结果,得到训练文本;
基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值;
收集应用领域中的命名实体;
从所述命名实体中提取关键词,加入所述应用领域的语料词库;
基于预设算法学习得到所述关键词的语义特征;
对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征;
基于所述关键词的语义特征、所述分词的语义特征进行相似度匹配,确定与所述关键词最接近的预设数量个所述分词,加入所述类别词库;
在所述收集应用领域中的命名实体后,对所述命名实体进行类别划分,在将所述分词加入所述类别词库时,同时对所述分词的所属类别进行标注。
2.如权利要求1所述的训练方法,其特征在于,在所述加入所述类别词库前更包含人工对所述预设数量个所述分词进行确认,确认通过后,加入所述类别词库。
3.如权利要求1所述的训练方法,其特征在于,所述修正所述预标注结果,得到训练文本具体包含:
基于预设修正规则及人工确认对所述预标注结果进行修改、补漏。
4.如权利要求1所述的训练方法,其特征在于,所述命名实体识别模型基于LSTM算法及CRF算法实现。
5.一种命名实体识别模型训练系统,其特征在于,包含服务器及用户操作界面,所述用户操作界面用于接收用户输入的系统初始配置信息、数据修正结果,并发送至服务器;
所述服务器用于接收所述用户操作界面发送的系统初始配置信息、数据修正结果,执行如权利要求1至4中任一项所述的训练方法,并输出训练结果至所述用户操作界面;
所述用户操作界面接收并显示所述训练结果。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的命名实体识别模型的训练方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的命名实体识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810868424.8A CN109190110B (zh) | 2018-08-02 | 2018-08-02 | 一种命名实体识别模型的训练方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810868424.8A CN109190110B (zh) | 2018-08-02 | 2018-08-02 | 一种命名实体识别模型的训练方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190110A CN109190110A (zh) | 2019-01-11 |
CN109190110B true CN109190110B (zh) | 2023-08-22 |
Family
ID=64920430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810868424.8A Active CN109190110B (zh) | 2018-08-02 | 2018-08-02 | 一种命名实体识别模型的训练方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190110B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563380A (zh) * | 2019-01-25 | 2020-08-21 | 浙江大学 | 一种命名实体识别方法及其装置 |
CN109801628B (zh) * | 2019-02-11 | 2020-02-21 | 龙马智芯(珠海横琴)科技有限公司 | 一种语料收集方法、装置及系统 |
CN109785840B (zh) * | 2019-03-05 | 2021-01-29 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN109933796B (zh) * | 2019-03-19 | 2022-05-24 | 厦门商集网络科技有限责任公司 | 一种公告文本关键信息提取方法及设备 |
CN109948736A (zh) * | 2019-04-04 | 2019-06-28 | 上海扩博智能技术有限公司 | 商品识别模型主动训练方法、系统、设备及存储介质 |
CN110134949B (zh) * | 2019-04-26 | 2022-10-28 | 网宿科技股份有限公司 | 一种基于教师监督的文本标注方法和设备 |
CN110110327B (zh) * | 2019-04-26 | 2021-06-22 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110134959B (zh) * | 2019-05-15 | 2023-10-20 | 第四范式(北京)技术有限公司 | 命名实体识别模型训练方法及设备、信息抽取方法及设备 |
CN112101026B (zh) * | 2019-06-18 | 2024-05-31 | 掌阅科技股份有限公司 | 语料样本集合的构建方法、计算设备及计算机存储介质 |
CN112115240B (zh) * | 2019-06-21 | 2024-07-09 | 百度在线网络技术(北京)有限公司 | 分类处理方法、装置、服务器和存储介质 |
CN110489739B (zh) * | 2019-07-03 | 2023-06-20 | 东莞数汇大数据有限公司 | 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置 |
CN110457436B (zh) * | 2019-07-30 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 信息标注方法、装置、计算机可读存储介质及电子设备 |
CN110442871A (zh) * | 2019-08-06 | 2019-11-12 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置及设备 |
CN110457369A (zh) * | 2019-08-07 | 2019-11-15 | 北京嘉和海森健康科技有限公司 | 一种模型的训练方法及相关设备 |
CN110428015A (zh) * | 2019-08-07 | 2019-11-08 | 北京嘉和海森健康科技有限公司 | 一种模型的训练方法及相关设备 |
CN110414627A (zh) * | 2019-08-07 | 2019-11-05 | 北京嘉和海森健康科技有限公司 | 一种模型的训练方法及相关设备 |
CN110516252B (zh) * | 2019-08-30 | 2022-12-09 | 京东方科技集团股份有限公司 | 数据标注方法、装置、计算机设备和存储介质 |
CN111222335A (zh) * | 2019-11-27 | 2020-06-02 | 上海眼控科技股份有限公司 | 语料修正方法、装置、计算机设备和计算机可读存储介质 |
CN112989828B (zh) * | 2019-12-17 | 2024-08-02 | 医渡云(北京)技术有限公司 | 命名实体识别模型的训练方法、装置、介质及电子设备 |
CN111177414A (zh) * | 2019-12-31 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种实体预标注方法和装置以及设备 |
CN111259134B (zh) * | 2020-01-19 | 2023-08-08 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
CN111582497A (zh) * | 2020-04-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 训练文件生成及评价方法、装置、计算机系统及存储介质 |
CN111782729A (zh) * | 2020-07-07 | 2020-10-16 | 国网湖南省电力有限公司 | 一种分布式基础词库的构建和同步的方法及装置 |
CN112906375B (zh) * | 2021-03-24 | 2024-05-14 | 平安科技(深圳)有限公司 | 文本数据标注方法、装置、设备及存储介质 |
CN113255328B (zh) * | 2021-06-28 | 2024-02-02 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113468305B (zh) * | 2021-06-29 | 2023-04-28 | 竹间智能科技(上海)有限公司 | 一种识别口语冗余成分的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075228B (zh) * | 2006-05-15 | 2012-05-23 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
-
2018
- 2018-08-02 CN CN201810868424.8A patent/CN109190110B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109190110A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190110B (zh) | 一种命名实体识别模型的训练方法、系统及电子设备 | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN113807098A (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112395391B (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN114330335B (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN112199954B (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN109858035A (zh) | 一种情感分类方法、装置、电子设备和可读存储介质 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN110956043A (zh) | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN113743118B (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |