CN113297851B - 一种针对易混淆运动损伤实体词的识别方法 - Google Patents

一种针对易混淆运动损伤实体词的识别方法 Download PDF

Info

Publication number
CN113297851B
CN113297851B CN202110682430.6A CN202110682430A CN113297851B CN 113297851 B CN113297851 B CN 113297851B CN 202110682430 A CN202110682430 A CN 202110682430A CN 113297851 B CN113297851 B CN 113297851B
Authority
CN
China
Prior art keywords
text
character
entity
vector text
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110682430.6A
Other languages
English (en)
Other versions
CN113297851A (zh
Inventor
李瑞瑞
李爽
赵伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Futong Oriental Technology Co ltd
Original Assignee
Beijing Futong Oriental Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Futong Oriental Technology Co ltd filed Critical Beijing Futong Oriental Technology Co ltd
Priority to CN202110682430.6A priority Critical patent/CN113297851B/zh
Publication of CN113297851A publication Critical patent/CN113297851A/zh
Application granted granted Critical
Publication of CN113297851B publication Critical patent/CN113297851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种针对易混淆运动损伤实体词的识别方法,基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本,采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;为所述字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码。然后对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签。将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别。通过上述方式,本发明能够有效鉴别运动损伤领域中实体词的类别。

Description

一种针对易混淆运动损伤实体词的识别方法
技术领域
本发明涉及自然语言处理领域,特别是涉及一种针对易混淆运动损伤实体词的识别方法。
背景技术
命名实体识别(NER)技术可用于识别文本中的特定实体信息,如人名、地名、组织名称等,它广泛应用于信息抽取、信息检索、智能问答、机器翻译等领域。
以前的方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法,但是随着新的实体名称不断涌现,词典的质量与大小有局限性;现阶段应用较多的模型有隐马尔可夫模型(HiddenMarkovModel,HMM)、支持向量机(SupportVectorMachine,SVM)、最大熵马尔可夫模型(MaximumEntropyMarkovModel,MEMM)、条件随机场(ConditionalRandomField,CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理,所以在实体识别中应用较多,且效果不错。目前,针对序列标注问题,一般采用深度学习算法。与传统算法相比,深度学习算法去掉了手工提取特征这一步,能有效的提取判别特征。
近年来,随着互联网的高速运转,信息也有了各式各样的存储形式。在生物医学领域,文献资源每年都在数以千倍的增加,从医学含义解释角度看,运动损伤领域实体词中,症状、体征、检查结果和检验结果属于易混淆实体词类,其中,症状的实体词存在识别过程中容易出错的问题,而与之关联性较大的三类实体词:体征、检查结果、检验结果的检查方法词表达相对标准、固定、有限,易于区分,因此作为鉴别症状与体征、检查结果、检验结果的词表最为合适。
发明内容
有鉴于此,本发明提出一种针对易混淆运动损伤实体词的识别方法。
为解决上述技术问题,本发明采用的一个技术方案是:提出一种针对易混淆运动损伤实体词的识别方法,其特征在于,包括以下步骤:
步骤1:基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本;
步骤2:采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;
步骤3: 为字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码。
步骤4:对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签。
步骤5:将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别;
所述待确定组为4组,包括症状组、体征组、检查结果组和检验结果组。
进一步的,所述字符向量文本包括单字符向量文本和双字符向量文本,所述单字符向量文本通过将文本语料按字符切割生成,所述双字符向量文本通过将文本语料按双字符切割生成,所述词汇向量文本采用jieba分词按语义切割生成。
进一步的,所述自动标注工具采用BIOES方法进行标注;所述BIOES方法包括:“B”表示标注的开始字符,“I”表示标注的中间字符,“E”表示标注的结尾字符,当标注为单字符时则用“S”表示,其他字符用“O”表示,数据格式要求一行一个字符及该字符标注,字符与标注间用空格隔开,句与句之间用空行隔开。
进一步的,所述步骤3包括:为每一个字符向量文本和词汇向量文本各自创建一个头位置编码和尾位置编码,所述头位置编码和尾位置编码分别表示所述字符向量文本和词汇向量文本的开始位置和结束位置;
进一步的,
所述第一次鉴别包括:将字符向量文本和词汇向量文本的相对位置编码嵌入输入到Flat-Lattice层的Transformer进行编码,得到编码序列,并将编码序列输入到CRF模型进行分词序列预测,得到每个字符和词的预测标签;
进一步的,所述分词序列预测包括:基于验证集对每次迭代生成的训练模型的召回率、精确度及F1值进行计算,选择F1值最大的模型作为优选实体识别模型;利用所述的优选实体识别模型对测试集的医学文本进行预测,得到每个字符的预测标签。
所述F1值结合召回率和精确度进行计算,F1值越大,表示模型预测准确性越高。
进一步的,所述二次鉴别包括:将待确定组分别按类别与对应实体词表进行相似度计算,将相似度计算结果与设定好的阈值作比较。
进一步的,对于待确定组中症状组;
若相似度计算结果小于阈值,则表示分类正确;
若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
进一步的,对于待确定组中的体征组、检查结果组和检验结果组;
若相似度计算结果大于阈值,则表示分类正确;
若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
进一步的,所述实体词表为各类实体对应的标准化词典,所述类别与对应实体词表的映射关系为:“症状-体格检测、影像学检查、实验室检验”“体征-体格检查”、“检查结果-影像学检查”、“检验结果-实验室检验”。
进一步的,所述阈值设置为0.8。
本发明的有益效果是:对于易混淆实体(体征、症状、检查结果、检验结果)可以更加精准的进行抽取和鉴别,使得与患者交互(面向症状)病情、与医生交互(面向体征、检查结果、检验结果)诊断信息更加精准。
附图说明
图1是一种针对易混淆运动损伤实体词的识别方法流程图。
图2是一种针对易混淆运动损伤实体词的识别方法一实施例示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
步骤1:基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本;
步骤2:采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;
步骤3: 为字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码。
步骤4:对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签。
步骤5:将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别;
所述待确定组为4组,包括症状组、体征组、检查结果组和检验结果组。
进一步的,所述字符向量文本包括单字符向量文本和双字符向量文本,所述单字符向量文本通过将文本语料按字符切割生成,所述双字符向量文本通过将文本语料按双字符切割生成,所述词汇向量文本采用jieba分词按语义切割生成。
进一步的,所述自动标注工具采用BIOES方法进行标注;所述BIOES方法包括:“B”表示标注的开始字符,“I”表示标注的中间字符,“E”表示标注的结尾字符,当标注为单字符时则用“S”表示,其他字符用“O”表示,数据格式要求一行一个字符及该字符标注,字符与标注间用空格隔开,句与句之间用空行隔开。
进一步的,所述步骤3包括:为每一个字符向量文本和词汇向量文本各自创建一个头位置编码和尾位置编码,所述头位置编码和尾位置编码分别表示所述字符向量文本和词汇向量文本的开始位置和结束位置,得到四种相对距离编码公式,最后计算得到相对位置编码。
进一步的,所述四种相对距离编码公式如下:
其中, 和/>分别表示 />的头和尾的位置,/>表示 />的头位置到 />的尾位置的距离,其他类似。
进一步的,所述相对位置编码的计算采用Mish激活函数,将四个距离通过一次非线性变换,得到跨度的最终相对位置编码,公式如下:
进一步的,所述第一次鉴别包括:将字符向量文本和词汇向量文本的相对位置编码嵌入输入到Flat-Lattice层的Transformer进行编码,得到编码序列,并将编码序列输入到CRF模型进行分词序列预测,得到每个字符和词的预测标签;
进一步的,所述分词序列预测包括:基于验证集对每次迭代生成的训练模型的召回率、精确度及F1值进行计算,选择F1值最大的模型作为优选实体识别模型;利用所述的优选实体识别模型对测试集的医学文本进行预测,得到每个字符的预测标签。
所述F1值结合召回率和精确度进行计算,F1值越大,表示模型预测准确性越高。
进一步的,精确率(Precision) = TP / (TP + FP)
召回率(Recall) = TP / (TP + FN)
召回率表示样本中的正例有多少被预测正确了,它是针对原来的样本而言的。
F1=(2* Precision* Recall)/(Precision+ Recall)
进一步的,TP:(实际为正例,预测也为正例) 、FP:(实际为负例,预测为正例) 、FN:(实际为正例,预测为负例) 、TN:(实际为负例,预测也为负例)
进一步的,所述二次鉴别包括:将待确定组分别按类别与对应实体词表进行相似度计算,将相似度计算结果与设定好的阈值作比较,
进一步的,对于待确定组中症状组;
若相似度计算结果小于阈值,则表示分类正确;
若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
进一步的,对于待确定组中的体征组、检查结果组和检验结果组;
若相似度计算结果大于阈值,则表示分类正确;
若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
进一步的,所述实体词表为各类实体对应的标准化词典,所述类别与对应实体词表的映射关系为:“症状-体格检测、影像学检查、实验室检验”“体征-体格检查”、“检查结果-影像学检查”、“检验结果-实验室检验”。
进一步的,所述阈值设置为0.8。
本实施例参考图2,例如:以《诊断学》、《内科学》等15本专业医学书籍、3万份病例和百余份临床指南为语料,将医学语料切割生成字符向量文本和词汇向量文本,再利用word2vec训练语义模型,获取“单字符向量文本”、“双字符向量文本”、“词汇向量文本”的Embedding;
采用BIOES方法标注样本数据,标注实体类别主要为易混淆的实体类别及相关类别,即症状(SYMP)、体征(SIGN)、检查结果(CRET)、检验结果(TRET)、影像学检查(CHEK)、实验室检验(TEST)及体格检查(EXAM),标注方式采用基于词典的双向最大匹配法,标注样本共计24w,训练集、测试集、测试集的样本数比例分别为6:2:2;
为每个字符向量文本和词汇向量文本创建一个头位置编码和尾位置编码,并将每一个字符向量、词汇向量和对应的头位置编码和尾位置编码输入FLAT模型,基于Flat模型的实体识别模型结果如下表:
由于症状、体征、检查结果与检验结果属于表示易混淆实体,因此对上述实体归类为待确定组,进行二次鉴别;结合识别的体格检查、影像学检查和实验室检验实体词与已有的基础词表,梳理上述三类词表,形成“体征-体格检查”、“检查结果-影像学检查”、“检验结果-实验室检验”对应表;
所述二次鉴别,包括:按照相似度计算公式遍历待确定组中各类别与对应实体词表进行相似度计算,如果相似度值大于阈值,则表示分类正确;如果小于阈值,则按算法流程图与其他三类实体词表进行相似度值计算,将实体词归类到满足阈值最多的实体类别中,经过鉴别调整后,易混淆的体征、症状、检查结果、检验结果实体词识别结果如下表:
模型输出结果中基于“症状-体格检测、影像学检查、实验室检查”、“体征-体格检查”、“检查结果-影像学检查”、“检验结果-实验室检验”进行相似度计算并与阈值进行比较,相似度计算方法如下:
编辑距离 score1=(sum-Idist)/sum
语义距离
其中,sum是指实体词1和实体词2字串的长度总和,ldist是类编辑距,score1用来衡量由实体词1变换到实体词2的距离长度;
表示实体词x的语义向量, />表示实体词y的语义向量,score2用来衡量由实体词x和实体词y的语义距离;
实体相似度的计算公式为scoretotal=(score1+score2)/2
对于待确定组中类型为“体征”、“检验结果”和“检查结果”;
若相似度计算结果大于阈值,则表示分类正确;
若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
对于待确定组中的“症状”,
若相似度计算结果小于阈值,则表示分类正确;
若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
以上所述仅为本发明的实施例、并非因此限制本发明的专利范围、凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换、或直接或间接运用在其他相关的技术领域、均同理包括在本发明的专利保护范围内。

Claims (3)

1.一种针对易混淆运动损伤实体词的识别方法,其特征在于,包括以下步骤:
步骤1:基于运动损伤领域的大规模文本语料,训练word2vec语义模型,将所述文本语料切割生成字符向量文本和词汇向量文本;
步骤2:采用自动标注工具标注训练集、验证集和测试集的字符向量文本和词汇向量文本;
步骤3:为字符向量文本和词汇向量文本创建编码并计算所述字符向量文本和词汇向量文本的相对位置编码;
步骤4:对字符向量文本和词汇向量文本进行第一次鉴别,得到所述字符向量文本和词汇向量文本的预测标签;
步骤5:将预测标签为症状、体征、检查结果和检验结果的实体词归类为待确定组,进行二次鉴别;
所述待确定组为4组,包括症状组、体征组、检查结果组和检验结果组;
所述字符向量文本包括单字符向量文本和双字符向量文本,所述单字符向量文本通过将文本语料按字符切割生成,所述双字符向量文本通过将文本语料按双字符切割生成,所述词汇向量文本采用jieba分词按语义切割生成;
所述自动标注工具采用BIOES方法进行标注;所述BIOES方法包括:“B”表示标注的开始字符,“I”表示标注的中间字符,“E”表示标注的结尾字符,当标注为单字符时则用“S”表示,其他字符用“O”表示,数据格式要求一行一个字符及该字符标注,字符与标注间用空格隔开,句与句之间用空行隔开;
所述步骤3包括:为每一个字符向量文本和词汇向量文本各自创建一个头位置编码和尾位置编码,所述头位置编码和尾位置编码分别表示所述字符向量文本和词汇向量文本的开始位置和结束位置;
所述第一次鉴别包括:将字符向量文本和词汇向量文本的相对位置编码嵌入输入到Flat-Lattice层的Transformer进行编码,得到编码序列,并将编码序列输入到CRF模型进行分词序列预测,得到每个字符和词的预测标签;
所述二次鉴别包括:将待确定组分别按类别与对应实体词表进行相似度计算,将相似度计算结果与设定好的阈值作比较;
所述实体词表为各类实体对应的标准化词典,所述类别与对应实体词表的映射关系为:“症状-体格检测、影像学检查、实验室检验”“体征-体格检查”、“检查结果-影像学检查”、“检验结果-实验室检验”;
所述阈值设置为0.8。
2.如权利要求1所述的一种针对易混淆运动损伤实体词的识别方法,其特征在于,
所述分词序列预测包括:基于验证集对每次迭代生成的训练模型的召回率、精确度及F1值进行计算,选择F1值最大的模型作为优选实体识别模型;利用所述的优选实体识别模型对测试集的医学文本进行预测,得到每个字符的预测标签;
所述F1值结合召回率和精确度进行计算,F1值越大,表示模型预测准确性越高。
3.如权利要求1所述的一种针对易混淆运动损伤实体词的识别方法,其特征在于,
对于待确定组中症状组;
若相似度计算结果小于阈值,则表示分类正确;
若相似度计算结果大于阈值,则将所述待确定组的实体词与所述待确定组中的另外三组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别;
对于待确定组中的体征组、检查结果组和检验结果组;
若相似度计算结果大于阈值,则表示分类正确;
若相似度计算结果小于阈值,则将所述待确定组的实体词与所述待确定组中的另外两组分别进行实体相似度计算;选择相似度最高的待确定组的类别作为最终预测类别。
CN202110682430.6A 2021-06-21 2021-06-21 一种针对易混淆运动损伤实体词的识别方法 Active CN113297851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110682430.6A CN113297851B (zh) 2021-06-21 2021-06-21 一种针对易混淆运动损伤实体词的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110682430.6A CN113297851B (zh) 2021-06-21 2021-06-21 一种针对易混淆运动损伤实体词的识别方法

Publications (2)

Publication Number Publication Date
CN113297851A CN113297851A (zh) 2021-08-24
CN113297851B true CN113297851B (zh) 2024-03-05

Family

ID=77328891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110682430.6A Active CN113297851B (zh) 2021-06-21 2021-06-21 一种针对易混淆运动损伤实体词的识别方法

Country Status (1)

Country Link
CN (1) CN113297851B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112883191A (zh) * 2021-02-05 2021-06-01 山东麦港数据系统有限公司 一种农业实体自动识别的分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112883191A (zh) * 2021-02-05 2021-06-01 山东麦港数据系统有限公司 一种农业实体自动识别的分类方法及装置

Also Published As

Publication number Publication date
CN113297851A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN111639171B (zh) 一种知识图谱问答方法及装置
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN108763201B (zh) 一种基于半监督学习的开放域中文文本命名实体识别方法
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN109145260B (zh) 一种文本信息自动提取方法
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
US20060015326A1 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN109710925A (zh) 命名实体识别方法及装置
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN110782892B (zh) 语音文本纠错方法
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN111180025A (zh) 表示病历文本向量的方法、装置及问诊系统
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN104317882A (zh) 一种决策级中文分词融合方法
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN114564950A (zh) 一种结合字词序列的电力中文命名实体识别方法
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant