CN106933802A - 一种面向多数据源的社保类实体识别方法及装置 - Google Patents

一种面向多数据源的社保类实体识别方法及装置 Download PDF

Info

Publication number
CN106933802A
CN106933802A CN201710101834.5A CN201710101834A CN106933802A CN 106933802 A CN106933802 A CN 106933802A CN 201710101834 A CN201710101834 A CN 201710101834A CN 106933802 A CN106933802 A CN 106933802A
Authority
CN
China
Prior art keywords
entity
social security
candidate
group
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710101834.5A
Other languages
English (en)
Other versions
CN106933802B (zh
Inventor
李雪莉
关毅
黄玉丽
徐国春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.
Harbin Institute of Technology
Original Assignee
Heilongjiang Teshi Information Technology Co Ltd
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Teshi Information Technology Co Ltd, Harbin Institute of Technology filed Critical Heilongjiang Teshi Information Technology Co Ltd
Priority to CN201710101834.5A priority Critical patent/CN106933802B/zh
Publication of CN106933802A publication Critical patent/CN106933802A/zh
Application granted granted Critical
Publication of CN106933802B publication Critical patent/CN106933802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • G06F19/328
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种面向多数据源的社保类实体识别方法及装置,涉及实体识别技术领域。方法包括:获取原始数据中的待处理语句;将待处理语句进行单字切分,确定每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的社保类术语切分策略,对待处理语句进行术语切分,确定第二组候选实体;对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。

Description

一种面向多数据源的社保类实体识别方法及装置
技术领域
本发明涉及实体识别技术领域,尤其涉及一种面向多数据源的社保类实体识别方法及装置。
背景技术
当前,社会保障体系建设是全球难度最大、问题最多、压力最突出的公共服务领域之一。我国目前对社会保证体系建设十分重视,为了有效管理和研究社会保障体系,当前社会上一般可以采用大数据技术构建“数字人社”,从而实现运用大数据分析推进人社工作,例如:用数据分析挖掘进行服务决策、研究政策,用数据分析研判形势,用数据研究发现问题,用数据反映工作进展,用数据分析进行基金监控,提高基金利用率,降低基金无谓浪费等。而对人社大数据的应用的前提实对大数据的识别,特别是对社保实体的识别格外重要。
目前常见的实体识别技术主要应用于医疗领域,在社保领域中并没有合适的实体识别方式,例如在医疗领域中,有基于词表的医学实体识别和基于条件随机场(Conditional Random Fields,简称CRF)的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术,缺少大数据语料库和语言规则的应用,语料均为人工标注后的语料,而没有利用半监督学习等方法,增加对数量更庞大的未标注数据的使用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。可见,当前的实体识别方案并不能准确进行社保类实体识别。
发明内容
本发明的实施例提供一种面向多数据源的社保类实体识别方法及装置,以解决当前的实体识别方案并不能准确进行社保类实体识别的问题。
为达到上述目的,本发明采用如下技术方案:
一种面向多数据源的社保类实体识别方法,包括:
获取原始数据中的待处理语句;
将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;
若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。
具体的,所述根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体,包括:
确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;
若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;
或者,确定来源于相同待处理语句的原始字符串的第一组社保类候选实体和第二组社保类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为所述待处理语句中的社保类实体;
在所述第一组社保类候选实体和第二组社保类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述原始数据包括社保工作中的就业信息数据、医保信息数据、失业信息数据、生育信息数据、工伤信息数据、政策文章数据、社保问答信息数据。
具体的,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:
从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
具体的,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,该面向多数据源的社保类实体识别方法,还包括:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的社保本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
具体的,根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:
将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母,形成预处理后的待处理语句;
将预处理后的待处理语句采用双向最大匹配原则与预先设置的社保本体数据库进行匹配,将预处理后的待处理语句中与社保本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
将预处理后的待处理语句中的各初步实体作为第二组候选实体。
具体的,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体,包括:
判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非社保术语字符;
若各候选实体的末尾字符为预先设置的非社保术语字符,将所述候选实体舍弃。
一种面向多数据源的社保类实体识别装置,包括:
待处理语句获取单元,用于获取原始数据中的待处理语句;
单字切分单元,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
实体标记序列确定单元,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
第一组候选实体确定单元,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
第二组候选实体确定单元,用于根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
候选实体筛选单元,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;
社保类实体结果确定单元,用于在第一组社保类候选实体和第二组社保类候选实体不相同时,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。
具体的,所述社保类实体结果确定单元,包括:
术语切分判断模块,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
社保类实体结果确定模块,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;
所述社保类实体结果确定模块,还用于确定来源于相同待处理语句的原始字符串的第一组社保类候选实体和第二组社保类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为所述待处理语句中的社保类实体;
实体类型确定模块,用于在所述第一组社保类候选实体和第二组社保类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述待处理语句获取单元中的原始数据包括社保工作中的就业信息数据、医保信息数据、失业信息数据、生育信息数据、工伤信息数据、政策文章数据、社保问答信息数据。
进一步的,所述实体标记序列确定单元,包括:
CRF统计特征值提取模块,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
训练模型确定模块,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
实体标记序列确定模块,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
此外,所述第一组候选实体确定单元,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,所述的面向多数据源的社保类实体识别装置,还包括语料库更新单元,用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的社保本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
此外,所述第二组候选实体确定单元,包括:
预处理模块,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母,形成预处理后的待处理语句;
社保本体库匹配模块,用于将预处理后的待处理语句采用双向最大匹配原则与预先设置的社保本体数据库进行匹配,将预处理后的待处理语句中与社保本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
第二组候选实体确定模块,用于将预处理后的待处理语句中的各初步实体作为第二组候选实体。
此外,所述候选实体筛选单元,包括:
非社保术语字符判断模块,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非社保术语字符;
候选实体舍弃模块,用于在各候选实体的末尾字符为预先设置的非社保术语字符时,将所述候选实体舍弃。
本发明实施例提供的一种面向多数据源的社保类实体识别方法及装置,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别社保类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向多数据源的社保类实体识别方法的流程图一;
图2为本发明实施例提供的一种面向多数据源的社保类实体识别方法的流程图二的A部分;
图3为本发明实施例提供的一种面向多数据源的社保类实体识别方法的流程图二的B部分;
图4为本发明实施例提供的一种面向多数据源的社保类实体识别装置的结构示意图一;
图5为本发明实施例提供的一种面向多数据源的社保类实体识别装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种面向多数据源的社保类实体识别方法,包括:
步骤101、获取原始数据中的待处理语句。
步骤102、将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
步骤103、根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列。
步骤104、根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体。
步骤105、根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体。
步骤106、根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体。
步骤107、若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。
本发明实施例提供的一种面向多数据源的社保类实体识别方法,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别社保类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
为了使本领域的技术人员更好的了解本发明,下面结合具体的实例来说明本发明。如图2和图3所示(其中,图2为一种面向多数据源的社保类实体识别方法的A部分,图3为一种面向多数据源的社保类实体识别方法的B部分,此处分为A、B部分是由于本发明实施例的步骤较多,并非表示实际意义上的区别,A部分与B部分形成整个步骤201至步骤217,其中图2示出了步骤201至步骤211,图3示出了步骤212至步骤217。),本发明实施例提供一种面向多数据源的社保类实体识别方法,包括:
步骤201、获取原始数据中的待处理语句。
具体的,所述原始数据包括社保工作中的就业信息数据、医保信息数据、失业信息数据、生育信息数据、工伤信息数据、政策文章数据、社保问答信息数据等,但不仅局限于此。
步骤202、将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
例如,待处理语句为“从工伤保险基金按月支付伤残津贴”,则单字切分后,每个文字为:“从”“工”“伤”“保”“险”“基”“金”“按”“月”“支”“付”“伤”“残”“津”“贴”。
步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。
所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
对于预先设置的语料库可以由人为预先标注,例如语句:
“从工伤保险基金按月支付伤残津贴”
则对于社保类实体,可以标注出:
c=工伤保险P=1:1 1:4 t=社保
c=按月支付P=1:7 1:10 t=社保
c=伤残津贴P=1:11 1:14 t=社保
其中,c表示社保类实体,P表示社保类实体所在语料中句子的行号及句子中字符位置,t表示社保实体类别。
对于CRF统计特征值,例如语句“2015年城镇医保缴费时间”,其实体标记序列为“OOOOOBIIEOOOO”。例如,对于“城”字,CRF统计特征说明如下表1所示:
表1:
步骤204、根据每个字在各语句中的CRF统计特征值,确定一训练模型。
其中,所述训练模型为:
步骤205、根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数,训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
对于fi(yj,yj-1,x),其表示若yj、yj-1、x均出现在语料中,则fi(yj,yj-1,x)=1,否则为0。
步骤206、将每个文字的实体标记进行组合,形成待处理语句的实体标记序列。
例如语句“2015年城镇医保缴费时间”,其实体标记序列为“OOOOOBIIEOOOO”。
步骤207、在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
例如,对于“2015年城镇医保缴费时间”,其实体标记序列为“OOOOOBIIEOOOO”,因此,可识别出第一组候选实体为“城镇医保”。
步骤208、将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母。
步骤209、将预处理后的待处理语句采用双向最大匹配原则与预先设置的社保本体数据库进行匹配,将预处理后的待处理语句中与社保本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。
此处的预先设置的社保本体数据库可以是在《中华人民共和国国家标准社会保险术语第4部分:医疗保险(征求意见稿)》基础上扩建而成的。例如原始数据“补缴上医保医保能不能即时享受医保待遇”,通过此处步骤208抽出的结果为“补缴【社保】;医保【社保】;医保待遇【社保】”
例如下表2所示:
标准术语 同义词 术语类型
起付标准 起伏线;起付线 社保
甲类目录药 甲类药 社保
城乡居保 城居保 社保
大病医保 社保
医疗保险 医保 社保
补缴 社保
医保待遇 社保
步骤210、将预处理后的待处理语句中的各初步实体作为第二组候选实体。
步骤211、判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非社保术语字符。
该预先设置的非社保术语字符可以是例如“药、手术、术、检查”等。
步骤212、若各候选实体的末尾字符为预先设置的非社保术语字符,将所述候选实体舍弃。
在步骤212之后,执行步骤213或者步骤216。
步骤213、在第一组社保类候选实体和第二组社保类候选实体不相同时,确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分。
此处,即是否通过上述步骤209的处理。
在步骤213之后,执行步骤214或者步骤215。
步骤214、若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体。
步骤215、若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体。
步骤216、在第一组社保类候选实体和第二组社保类候选实体不相同时,确定来源于相同待处理语句的原始字符串的第一组社保类候选实体和第二组社保类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为所述待处理语句中的社保类实体。
例如,原始数据为“城职欠费补缴费的问题”。
第一组社保类候选实体为“城职【社保】;欠费【社保】;补缴费【社保】”;
第二组社保类候选实体为“城职【社保】;欠费【社保】;补缴【社保】”;
则,最终结果为“城职【社保】;欠费【社保】;补缴费【社保】”。
在步骤214、215和步骤216之后,执行步骤217。
步骤217、在所述第一组社保类候选实体和第二组社保类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
例如,原始数据为“甲类药报销比例是多少?”。
第一组社保类候选实体为“甲类药【药品】;报销比例【社保】”;
第二组社保类候选实体为“甲类药【社保】;报销比例【社保】”;
则,最终结果为“甲类药【社保】;报销比例【社保】”。
通过上述步骤201至步骤217,最终可以得到社保类实体识别结果。
另外,为了实现对语料库进行更新,可以由人工总结发现新的句型特征,并人工标注加入到语料库中;另外,还可以在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率。
例如,“2015年城镇医保缴费时间”,实体标记序列为“OOOOOBIIEOOOO”,位置序列为“0 1 2 3 4 5 6 7 8 9 10 11 12”,看出实体“城镇医保”,位置为“5 6 7 8”,因此,Kstart为5,Kend为8。
将待处理语句中不确定值为1的实体与预先设置的社保本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存。
确定待处理语句的预测置信度和字典匹配标记的实体比例。
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新。
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积。
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
可见,通过语料库的更新,可以实现实体识别所需语料数据利用半监督自学习方法,实现语料库不断丰富,解决了语料库数目不足、不完整的问题。
本发明实施例提供的一种面向多数据源的社保类实体识别方法,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别社保类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
对应于上述图1、图2和图3所示的方法实施例,如图4所示,本发明实施例提供一种面向多数据源的社保类实体识别装置,包括:
待处理语句获取单元31,用于获取原始数据中的待处理语句。
单字切分单元32,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
实体标记序列确定单元33,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列。
第一组候选实体确定单元34,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体。
第二组候选实体确定单元35,用于根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体。
候选实体筛选单元36,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体。
社保类实体结果确定单元37,用于在第一组社保类候选实体和第二组社保类候选实体不相同时,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。
具体的,如图5所示,所述社保类实体结果确定单元37,包括:
术语切分判断模块371,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分。
社保类实体结果确定模块372,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体。
所述社保类实体结果确定模块372,还用于确定来源于相同待处理语句的原始字符串的第一组社保类候选实体和第二组社保类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为所述待处理语句中的社保类实体。
实体类型确定模块373,用于在所述第一组社保类候选实体和第二组社保类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述待处理语句获取单元31中的原始数据社保工作中的就业信息数据、医保信息数据、失业信息数据、生育信息数据、工伤信息数据、政策文章数据、社保问答信息数据。
进一步的,如图5所示,所述实体标记序列确定单元33,包括:
CRF统计特征值提取模块331,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
训练模型确定模块332,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块333,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
实体标记序列确定模块334,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
此外,所述第一组候选实体确定单元34,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,如图5所示,所述的面向多数据源的社保类实体识别装置,还包括语料库更新单元38用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率。
将待处理语句中不确定值为1的实体与预先设置的社保本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存。
确定待处理语句的预测置信度和字典匹配标记的实体比例。
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新。
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积。
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
此外,如图5所示,所述第二组候选实体确定单元35,包括:
预处理模块351,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母,形成预处理后的待处理语句。
社保本体库匹配模块352,用于将预处理后的待处理语句采用双向最大匹配原则与预先设置的社保本体数据库进行匹配,将预处理后的待处理语句中与社保本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。
第二组候选实体确定模块353,用于将预处理后的待处理语句中的各初步实体作为第二组候选实体。
此外,如图5所示,所述候选实体筛选单元36,包括:
非社保术语字符判断模块361,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非社保术语字符。
候选实体舍弃模块362,用于在各候选实体的末尾字符为预先设置的非社保术语字符时,将所述候选实体舍弃。
值得说明的是,本发明实施例提供的一种面向多数据源的社保类实体识别装置的具体实现方式可以参见上述的方法实施例,此处不再赘述。
本发明实施例提供的一种面向多数据源的社保类实体识别装置,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别社保类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种面向多数据源的社保类实体识别方法,其特征在于,包括:
获取原始数据中的待处理语句;
将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;
若第一组社保类候选实体和第二组社保类候选实体不相同,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。
2.根据权利要求1所述的面向多数据源的社保类实体识别方法,其特征在于,所述根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体,包括:
确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;
若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;
或者,确定来源于相同待处理语句的原始字符串的第一组社保类候选实体和第二组社保类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为所述待处理语句中的社保类实体;
在所述第一组社保类候选实体和第二组社保类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
3.根据权利要求2所述的面向多数据源的社保类实体识别方法,其特征在于,所述原始数据包括社保工作中的就业信息数据、医保信息数据、失业信息数据、生育信息数据、工伤信息数据、政策文章数据、社保问答信息数据。
4.根据权利要求3所述的面向多数据源的社保类实体识别方法,其特征在于,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:
从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
p ( y | x ) = 1 Z ( x ) exp ( Σ j = 1 n Σ i = 1 m λ i f i ( y j , y j - 1 , x ) ) ;
根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
5.根据权利要求4所述的面向多数据源的社保类实体识别方法,其特征在于,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
6.根据权利要求5所述的面向多数据源的社保类实体识别方法,其特征在于,还包括:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的社保本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
7.根据权利要求6所述的面向多数据源的社保类实体识别方法,其特征在于,根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:
将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母,形成预处理后的待处理语句;
将预处理后的待处理语句采用双向最大匹配原则与预先设置的社保本体数据库进行匹配,将预处理后的待处理语句中与社保本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
将预处理后的待处理语句中的各初步实体作为第二组候选实体。
8.根据权利要求7所述的面向多数据源的社保类实体识别方法,其特征在于,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体,包括:
判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非社保术语字符;
若各候选实体的末尾字符为预先设置的非社保术语字符,将所述候选实体舍弃。
9.一种面向多数据源的社保类实体识别装置,其特征在于,包括:
待处理语句获取单元,用于获取原始数据中的待处理语句;
单字切分单元,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
实体标记序列确定单元,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
第一组候选实体确定单元,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
第二组候选实体确定单元,用于根据预先设置的社保类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
候选实体筛选单元,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,以及预先设置的社保类实体筛选规则,对各候选实体进行筛选,分别形成第一组社保类候选实体和第二组社保类候选实体;
社保类实体结果确定单元,用于在第一组社保类候选实体和第二组社保类候选实体不相同时,根据预先设置的判断策略选择第一组社保类候选实体或第二组社保类候选实体作为所述待处理语句中的社保类实体。
10.根据权利要求9所述的面向多数据源的社保类实体识别装置,其特征在于,所述社保类实体结果确定单元,包括:
术语切分判断模块,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
社保类实体结果确定模块,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组社保类候选实体中的候选实体作为所述待处理语句中的社保类实体;
所述社保类实体结果确定模块,还用于确定来源于相同待处理语句的原始字符串的第一组社保类候选实体和第二组社保类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为所述待处理语句中的社保类实体;
实体类型确定模块,用于在所述第一组社保类候选实体和第二组社保类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
11.根据权利要求10所述的面向多数据源的社保类实体识别装置,其特征在于,所述待处理语句获取单元中的原始数据包括社保工作中的就业信息数据、医保信息数据、失业信息数据、生育信息数据、工伤信息数据、政策文章数据、社保问答信息数据。
12.根据权利要求11所述的面向多数据源的社保类实体识别装置,其特征在于,所述实体标记序列确定单元,包括:
CRF统计特征值提取模块,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
训练模型确定模块,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
p ( y | x ) = 1 Z ( x ) exp ( Σ j = 1 n Σ i = 1 m λ i f i ( y j , y j - 1 , x ) ) ;
实体标记计算模块,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
实体标记序列确定模块,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
13.根据权利要求12所述的面向多数据源的社保类实体识别装置,其特征在于,所述第一组候选实体确定单元,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
14.根据权利要求13所述的面向多数据源的社保类实体识别装置,其特征在于,还包括语料库更新单元,用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的社保本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
15.根据权利要求14所述的面向多数据源的社保类实体识别装置,其特征在于,所述第二组候选实体确定单元,包括:
预处理模块,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母,形成预处理后的待处理语句;
社保本体库匹配模块,用于将预处理后的待处理语句采用双向最大匹配原则与预先设置的社保本体数据库进行匹配,将预处理后的待处理语句中与社保本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
第二组候选实体确定模块,用于将预处理后的待处理语句中的各初步实体作为第二组候选实体。
16.根据权利要求15所述的面向多数据源的社保类实体识别装置,其特征在于,所述候选实体筛选单元,包括:
非社保术语字符判断模块,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非社保术语字符;
候选实体舍弃模块,用于在各候选实体的末尾字符为预先设置的非社保术语字符时,将所述候选实体舍弃。
CN201710101834.5A 2017-02-24 2017-02-24 一种面向多数据源的社保类实体识别方法及装置 Active CN106933802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710101834.5A CN106933802B (zh) 2017-02-24 2017-02-24 一种面向多数据源的社保类实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710101834.5A CN106933802B (zh) 2017-02-24 2017-02-24 一种面向多数据源的社保类实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN106933802A true CN106933802A (zh) 2017-07-07
CN106933802B CN106933802B (zh) 2020-02-21

Family

ID=59424434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710101834.5A Active CN106933802B (zh) 2017-02-24 2017-02-24 一种面向多数据源的社保类实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN106933802B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111444718A (zh) * 2020-03-12 2020-07-24 泰康保险集团股份有限公司 一种保险产品需求文档处理方法、装置及电子设备
CN112446792A (zh) * 2020-12-01 2021-03-05 中国人寿保险股份有限公司 利益演示生成方法、装置、电子设备及存储介质
CN113343702A (zh) * 2021-08-03 2021-09-03 杭州费尔斯通科技有限公司 一种基于无标注语料的实体匹配方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601520A (zh) * 2003-09-24 2005-03-30 国际商业机器公司 识别文本文档中的有机化学名称的系统和方法
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601520A (zh) * 2003-09-24 2005-03-30 国际商业机器公司 识别文本文档中的有机化学名称的系统和方法
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LIU HONGLAN 等: "The Symptoms and Pathogenesis Entity Recognition of TCM Medical Records", 《UIC-ATC-SCALCOM-CBDCOM-IOP 2015》 *
XINBO LV 等: "Transfer learning based clinical concept extraction on data from multiple sources", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
崔梦娇 等: "基于高校网站内容的实体抽取研究", 《北京信息科技大学学报》 *
李静月 等: "一种改进的TFIDF网页关键词提取方法", 《计算机应用与软件》 *
邓本洋 等: "基于堆积策略的电子病历实体识别", 《智能计算机与应用》 *
陈锋 等: "基于条件随机场的学术期刊中理论的自动识别方法", 《图书情报工作》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111144102B (zh) * 2019-12-26 2022-05-31 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111444718A (zh) * 2020-03-12 2020-07-24 泰康保险集团股份有限公司 一种保险产品需求文档处理方法、装置及电子设备
CN112446792A (zh) * 2020-12-01 2021-03-05 中国人寿保险股份有限公司 利益演示生成方法、装置、电子设备及存储介质
CN113343702A (zh) * 2021-08-03 2021-09-03 杭州费尔斯通科技有限公司 一种基于无标注语料的实体匹配方法和系统

Also Published As

Publication number Publication date
CN106933802B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN106934220B (zh) 面向多数据源的疾病类实体识别方法及装置
CN107679224B (zh) 一种面向无结构文本智能问答的方法和系统
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN106919793A (zh) 一种医疗大数据的数据标准化处理方法及装置
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN104809103A (zh) 一种人机对话的语义分析方法及系统
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN113779358B (zh) 一种事件检测方法和系统
CN107862087A (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN106933802A (zh) 一种面向多数据源的社保类实体识别方法及装置
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN110532563A (zh) 文本中关键段落的检测方法及装置
CN102043774A (zh) 机器翻译测评装置和方法
CN108052499A (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN112463942B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN110287482A (zh) 半自动化分词语料标注训练装置
CN111738002A (zh) 基于Lattice LSTM的古文领域命名实体识别方法和系统
CN109325780A (zh) 一种面向电子政务领域的智能客服系统的交互方法
CN107133212A (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200219

Address after: 100027 Chaoyang District Xinyuan 16, Beijing 14 floor 2 12B06

Co-patentee after: HARBIN INSTITUTE OF TECHNOLOGY

Patentee after: Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.

Address before: 150000 Heilongjiang Province, Harbin Economic Development Zone haping Road District Road No. 9 China Songhua Valley Software Park Building 1, room 214

Co-patentee before: HARBIN INSTITUTE OF TECHNOLOGY

Patentee before: Heilongjiang Teshi Information Technology Co. Ltd.