CN112364640A - 实体名词链接方法、装置、计算机设备和存储介质 - Google Patents
实体名词链接方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112364640A CN112364640A CN202011239234.3A CN202011239234A CN112364640A CN 112364640 A CN112364640 A CN 112364640A CN 202011239234 A CN202011239234 A CN 202011239234A CN 112364640 A CN112364640 A CN 112364640A
- Authority
- CN
- China
- Prior art keywords
- text
- nouns
- processed
- entity
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及大数据技术领域,提供了一种实体名词链接方法、装置、计算机设备和存储介质。方法包括:获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系。针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。本申请可应用于智慧政务,从而推动智慧城市的建设。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种实体名词链接方法、装置、计算机设备和存储介质。
背景技术
随着自然语言处理技术的发展,实体链接在自然语言处理中的许多领域都得到了应用,比如问题回答,语义搜索,信息提取等。
现有实体链接需要较大的知识库作为支撑,同时也需要大量实体识别语料来训练一个实体识别模型和消歧模型,对数据基础设施和算力基础设施的要求都比较高,构建一个庞大的知识库和大量的实体识别语料和消歧语料,需要消耗大量的计算资源,而且,基数庞大的语料,会导致文本中的实体名词链接建立过程效率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高实体名词链接效率的实体名词链接方法、装置、计算机设备和存储介质。
一种实体名词链接方法,方法包括:
获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;
基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;
将分词结果中存在于领域词典中的名词标记为候选实体名词;
建立候选实体名词与领域词典中对应实体名词的链接关系。
在其中一个实施例中,领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词;
将分词结果中存在于领域词典中的名词标记为候选实体名词包括:
根据分词结果,筛选出存在于领域词典中的目标实体名词;
根据领域词典中实体名词携带的实体名词类别标识,确定目标实体名词的实体名词类别;
将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
在其中一个实施例中,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果包括:
基于与领域词典关联的分词工具,遍历领域词典,将待处理文本与领域词典中的实体名词进行匹配,得到匹配结果;
根据匹配结果,对待处理文本进行分词处理,得到分词结果。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
当候选实体名词满足预设的链接展示条件时,建立候选实体名词与领域词典中对应实体名词的链接关系,其中,预设的链接展示条件包括在待处理文本中不包含候选实体名词的释义文本、候选实体名词在待处理文本中第一次出现、在待处理文本中不包含候选实体名词的链接、以及待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
获取待处理文本中链接数量与分词结果数量的比例数据;
当比例数据小于预设比例时,获取候选实体名词在待处理文本中的链接信息;
当链接信息为候选实体名词无对应链接时,获取候选实体名词在待处理文本中的出现次数;
当出现次数为第一次时,从待处理文本中查找候选实体名词的释义文本;
当释义文本查找失败时,建立候选实体名词与领域词典中对应实体名词的链接。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果;
当比例数据小于预设比例、链接信息为候选实体名词无对应链接、出现次数为第一次且释义文本查找结果为查找失败时,建立候选实体名词与领域词典中对应实体名词的链接关系。
在其中一个实施例中,获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果之后,还包括:
当比例数据不小于预设比例、或链接信息为候选实体名词存在对应链接、或出现次数不为第一次、或释义文本查找结果为查找成功时,将候选实体名词标记为无需链接实体名词。
一种实体名词链接装置,装置包括:
文本获取模块,用于获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;
分词模块,用于基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;
标记模块,用于将分词结果中存在于领域词典中的名词标记为候选实体名词;
链接关系建立模块,用于建立候选实体名词与领域词典中对应实体名词的链接关系。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;
基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;
将分词结果中存在于领域词典中的名词标记为候选实体名词;
建立候选实体名词与领域词典中对应实体名词的链接关系。
一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;
基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;
将分词结果中存在于领域词典中的名词标记为候选实体名词;
建立候选实体名词与领域词典中对应实体名词的链接关系。
上述实体名词链接方法、装置、计算机设备和存储介质,通过获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系,针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。
附图说明
图1为一个实施例中实体名词链接方法的应用环境图;
图2为一个实施例中实体名词链接方法的流程示意图;
图3为另一个实施例中实体名词链接方法的流程示意图;
图4为又一个实施例中实体名词链接方法的流程示意图;
图5为再一个实施例中实体名词链接方法的流程示意图;
图6为一个实施例中实体名词链接装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的实体名词链接方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102上传的待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典。于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果。将分词结果中存在于领域词典中的名词标记为候选实体名词。建立候选实体名词与领域词典中对应实体名词的链接关系,最后将建立有链接关系的文本反馈至终端。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种实体名词链接方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤202至步骤208。
步骤202,获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典。
待处理文本是指需要对文本中的部分词语进行链接,以提高可读性的文本。待处理文本中包含若干实体,各实体为需要通过链接进行释义的名词,待处理文本可以由用户选定通过终端提交至服务器,也可以由服务器通过对存储的文本进行检测识别得到。
需要进行链接的词语可以是特定的领域专有名词、自定义词等。链接是指从一个界面指向一个目标的连接关系,所指向的目标可以是一个网页界面,也可以是相同界面上的不同位置,还可以是图片、电子邮件地址、文件、甚至是应用程序。在实施例中,待处理文本中实体名词的链接指向的是该待处理文本垂直领域的领域词典对该名词的释义。释义具体可以是文本格式也可以是图片格式的。
垂直领域是指为只专注某一行业某一部分,受众属性限定为某类特定群体。在垂直领域的领域词典中,收录有该垂直领域的各种领域专有名词、自定义词、以及需要通过释义解释其特定含义的各种词语,且对于领域词典中收录的每一个词语,都具有对应的释义,释义可以作为词语的链接展示内容。在实施例中,具体的垂直领域可以是保险垂直领域,医疗垂直领域等。
举例来说,待处理文本可以是保险领域的相关文档,通过对文档中的实体进行链接,给出文档中相关保险术语的释义,以提高用户体验。再例如,在保险领域的问答系统中,系统的答案中经常包含大量的保险术语,有很多术语可能用户比较少接触,甚至是第一次接触,进一步解释保险术语的需要,因此可以通过实体链接实现相关保险术语的释义。
步骤204,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果。
分词工具是指用于对文本进行分词处理的工具。与领域词典关联的分词工具是指根据领域词典中的已经确定的名词,对文本进行分词的工具,基于与领域词典关联的分词工具,能够避免将特定的名词进行错误的拆分,确保分词结果中的各个词语的有效性。进一步地,分词工具在进行分词处理时,可以先通过领域词典,从待处理文本中筛选出领域词典中已经收录的特定词语,然后基于特定的词语,对待处理文本进行分词。
在实施例中,分词结果可以分为存在于领域词典中的词语以及不存在于领域词典中的词语两大类,以区别于传统的对各个词语都进行区分的分词方式,以提高分词处理的效率
步骤206,将分词结果中存在于领域词典中的名词标记为候选实体名词。
在通过分词工具进行分词处理的过程中,通过与领域词典中收录的名词进行匹配,会得到匹配成功和匹配失败两种匹配结果,其中,匹配成功的名词即为存在于领域词典中的名词,匹配失败的词语即为不存在于领域词典中的词语。将匹配成功和匹配失败这两种匹配结果结合,就得到了待处理文本的分词结果。通过对存在于领域词典中的名词即匹配成功的词语进行标记,即可得到候选实体名词,以便在后续处理过程中对候选实体名词建立对应的链接。
步骤208,建立候选实体名词与领域词典中对应实体名词的链接关系。
在实施例中,可以直接对被标记的各候选实体名词建立对应的链接,也可以对候选实体名词按设定的条件进行筛选,丢弃部分不需要建立链接的实体名词,对筛选处理后的候选实体名词建立对应的链接。
进一步地,对于每一个需要建立链接关系的候选实体名词,首先确定该候选实体名词在领域词典中对应的目标实体名词,然后得到包含目标实体名词对应释义的链接对象以及链接对象的链接地址,再将链接地址插入待处理文本中该候选实体名词所在位置的对应预设区域,从而建立候选实体名词与领域词典中对应实体名词的链接关系。
具体来说,插入候选实体名词所在位置的对应预设区域可以是在候选实体名词所在位置的后面新增一个可触发链接,也可以是将该候选实体名词设置为可点击触发的链接形式,其中,可点击触发的链接形式可以通过改变字体颜色、加下划线等方式进行显著标识。通过插入链接的方式,可以在不答复修改原文本的条件下,实现文本中实体名词的释义插入,便于文本内容的阅读,提高了用户体验。
上述实体名词链接方法,通过获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系,针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。
在其中一个实施例中,如图3所示,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果即步骤204,包括步骤302至步骤304。
步骤302,基于与领域词典关联的分词工具,遍历领域词典,将待处理文本与领域词典中的实体名词进行匹配,得到匹配结果。
步骤304,根据匹配结果,对待处理文本进行分词处理,得到分词结果。
待处理文本的匹配结果包括匹配成功的词语以及匹配失败的词语。其中,匹配成功的词语属于实体名词,匹配失败的词语包括非实体名词或者是未被收录至领域词典的实体名词。
根据匹配结果中匹配成功的词语以及匹配失败的词语,对待处理文本进行分词,得到的分词结果,基于分词结果,能准确识别出待处理文本中哪些为匹配成功的词语以及哪些为匹配失败的词语。
举例来说,在某个待处理的保险文本中,其中一句话的分词结果为:“/保险人/在事先准备且在/保险单/上订立的基本事项,包括/法定条款/和/任选条款/两部分。”其中,保险人、保险单、法定条款以及任选条款为匹配成功的实体名词,其余部分属于匹配失败的词语。
在其中一个实施例中,领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词。
如图4所示,将分词结果中存在于领域词典中的名词标记为候选实体名词,即步骤206包括步骤402至步骤406。
步骤402,根据分词结果,筛选出存在于领域词典中的目标实体名词。
步骤404,根据领域词典中实体名词携带的实体名词类别标识,确定目标实体名词的实体名词类别。
步骤406,将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
待展示实体名词是指在待处理文本中出现时需要进行释义的名词,无需展示实体名词是指在待处理文本中出现时不需要进行释义的名词。
分词结果中包括与领域词典匹配成功的名词以及与领域词典匹配失败的词语,通过将匹配成功的名词即存在于领域词典中的目标实体名词,在领域词典中,收录的各个实体名词均携带的实体名词类别标识,基于实体名词类别标识,可以确定目标实体名词的实体名词类别为待展示实体名词还是无需展示实体名词。由于待处理文本中只需要展示待展示实体名词的链接,所以,将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。通过在领域词典中区分待展示实体名词和无需展示实体名词,能够有效对待处理文本中的实体名词进行过滤,减少不必要的数据处理流程,提高数据处理速度。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
当候选实体名词满足预设的链接展示条件时,建立候选实体名词与领域词典中对应实体名词的链接关系。
其中,预设的链接展示条件包括在待处理文本中不包含候选实体名词的释义文本、候选实体名词在待处理文本中第一次出现、在待处理文本中不包含候选实体名词的链接、以及待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
更进一步的,获取同一个常见问题解答的答案中某个实体名词出现多次时的链接展示策略,当链接展示策略为只展示第一个实体名词时,预设的链接展示条件包括候选实体名词在待处理文本中第一次出现。
通过对待处理文本中是否包含该候选实体名词进行释义文本检测,确定待处理文本中是否包含候选实体名词的释义文本,具体包括:识别候选实体名词在本句子中是否包含释义关键词,判断待处理文本中是否包含该候选实体的释义文本。例如“前置健康函”是指客户……,其中,是指或”是指为释义关键词,也就是说,释义关键词可以包括释义词或者是前置标点与释义词的组合。
待处理文本中是否包含候选实体名词的链接,具体包括:检测候选实体名词是否在<span>等Tag标签内,判断待处理文本中是否包含该候选实体的链接。
待处理文本中的链接数量与分词结果数量的比例是否达到预设比例,具体包括:对文本中实体链接的数量或者密度进行统计,并基于分词结果数量,判断待处理文本中的链接数量与分词结果数量的比例是否达到预设比例。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:获取待处理文本中链接数量与分词结果数量的比例数据。当比例数据小于预设比例时,获取候选实体名词在待处理文本中的链接信息。当链接信息为候选实体名词无对应链接时,获取候选实体名词在待处理文本中的出现次数。当出现次数为第一次时,从待处理文本中查找候选实体名词的释义文本。当释义文本查找失败时,建立候选实体名词与领域词典中对应实体名词的链接。
如图5所示,预设的链接展示条件为多个,服务器先获取待处理文本中链接数量与分词结果数量的比例数据,判断比例数据是否小于预设比例,若是,获取候选实体名词在待处理文本中的链接信息,若否,将候选实体名词标记为无需链接实体名词。
获取候选实体名词在待处理文本中的链接信息之后,判断链接信息为候选实体名词是否存在对应链接,若否,获取候选实体名词在待处理文本中的出现次数,若是,将候选实体名词标记为无需链接实体名词。
获取候选实体名词在待处理文本中的出现次数之后,判断出现次数是否多次出现,若否,从待处理文本中查找候选实体名词的释义文本,若是,将候选实体名词标记为无需链接实体名词。
从待处理文本中查找候选实体名词的释义文本,判断查找结果是否为查找成功,若否,建立候选实体名词与领域词典中对应实体名词的链接,若是,将候选实体名词标记为无需链接实体名词。
通过将多个链接展示条件按优先级进行排序,并依次进行处理,能减少数据处理资源的不必要消耗,通过配置各个链接展示条件的优先级,依次对链接展示条件进行判断,在某一个条件不满足时,即可候选实体名词标记为无需链接实体名词,结束对该实体名词的处理流程,并跳转至下一个实体名词的处理进程。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果。
当比例数据小于预设比例、链接信息为候选实体名词无对应链接、出现次数为第一次且释义文本查找结果为查找失败时,建立候选实体名词与领域词典中对应实体名词的链接关系。
在实施例中,通过将多个条件进行并列判断,能够实现多个条件的同时处理,提高数据处理效率。只有当各个条件均满足时,才建立候选实体名词与领域词典中对应实体名词的链接关系。
在其中一个实施例中,获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果之后,还包括:
当比例数据不小于预设比例、或链接信息为候选实体名词存在对应链接、或出现次数不为第一次、或释义文本查找结果为查找成功时,将候选实体名词标记为无需链接实体名词。
对于配置有多个链接展示条件的情况,只要出现一个数据信息是不满足链接展示条件的,将候选实体名词标记为无需链接实体名词,以便于该候选实体名词在待处理文本中出现多次时,可以直接跳过该候选实体名词,执行下一候选实体名词的处理,从而提高数据处理效率。
应该理解的是,虽然上述实施例中涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例中涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种实体名词链接装置,包括:文本获取模块602、分词模块604、标记模块606和链接关系建立模块608,其中:
文本获取模块602,用于获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典。
分词模块604,用于基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果。
标记模块606,用于将分词结果中存在于领域词典中的名词标记为候选实体名词。
链接关系建立模块608,用于建立候选实体名词与领域词典中对应实体名词的链接关系。
在其中一个实施例中,领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词;标记模块还用于根据分词结果,筛选出存在于领域词典中的目标实体名词;根据领域词典中实体名词携带的实体名词类别标识,确定目标实体名词的实体名词类别;将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
在其中一个实施例中,分词模块还用于基于与领域词典关联的分词工具,遍历领域词典,将待处理文本与领域词典中的实体名词进行匹配,得到匹配结果;根据匹配结果,对待处理文本进行分词处理,得到分词结果。
在其中一个实施例中,链接关系建立模块还用于当候选实体名词满足预设的链接展示条件时,建立候选实体名词与领域词典中对应实体名词的链接关系,其中,预设的链接展示条件包括在待处理文本中不包含候选实体名词的释义文本、候选实体名词在待处理文本中第一次出现、在待处理文本中不包含候选实体名词的链接、以及待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
在其中一个实施例中,链接关系建立模块还用于获取待处理文本中链接数量与分词结果数量的比例数据;当比例数据小于预设比例时,获取候选实体名词在待处理文本中的链接信息;当链接信息为候选实体名词无对应链接时,获取候选实体名词在待处理文本中的出现次数;当出现次数为第一次时,从待处理文本中查找候选实体名词的释义文本;当释义文本查找失败时,建立候选实体名词与领域词典中对应实体名词的链接。
在其中一个实施例中,链接关系建立模块还用于获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果;当比例数据小于预设比例、链接信息为候选实体名词无对应链接、出现次数为第一次且释义文本查找结果为查找失败时,建立候选实体名词与领域词典中对应实体名词的链接关系。
在其中一个实施例中,标记模块还用于当比例数据不小于预设比例、或链接信息为候选实体名词存在对应链接、或出现次数不为第一次、或释义文本查找结果为查找成功时,将候选实体名词标记为无需链接实体名词。
上述实体名词链接装置,通过获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系,针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。
关于实体名词链接装置的具体限定可以参见上文中对于实体名词链接方法的限定,在此不再赘述。上述实体名词链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储领域词典中的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体名词链接方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;将分词结果中存在于领域词典中的名词标记为候选实体名词;建立候选实体名词与领域词典中对应实体名词的链接关系。
在一个实施例中,领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词;处理器执行计算机程序时还实现以下步骤:
根据分词结果,筛选出存在于领域词典中的目标实体名词;根据领域词典中实体名词携带的实体名词类别标识,确定目标实体名词的实体名词类别;将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于与领域词典关联的分词工具,遍历领域词典,将待处理文本与领域词典中的实体名词进行匹配,得到匹配结果;根据匹配结果,对待处理文本进行分词处理,得到分词结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当候选实体名词满足预设的链接展示条件时,建立候选实体名词与领域词典中对应实体名词的链接关系,其中,预设的链接展示条件包括在待处理文本中不包含候选实体名词的释义文本、候选实体名词在待处理文本中第一次出现、在待处理文本中不包含候选实体名词的链接、以及待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取待处理文本中链接数量与分词结果数量的比例数据;当比例数据小于预设比例时,获取候选实体名词在待处理文本中的链接信息;当链接信息为候选实体名词无对应链接时,获取候选实体名词在待处理文本中的出现次数;当出现次数为第一次时,从待处理文本中查找候选实体名词的释义文本;当释义文本查找失败时,建立候选实体名词与领域词典中对应实体名词的链接。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果;当比例数据小于预设比例、链接信息为候选实体名词无对应链接、出现次数为第一次且释义文本查找结果为查找失败时,建立候选实体名词与领域词典中对应实体名词的链接关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当比例数据不小于预设比例、或链接信息为候选实体名词存在对应链接、或出现次数不为第一次、或释义文本查找结果为查找成功时,将候选实体名词标记为无需链接实体名词。
上述用于实现实体名词链接方法的计算机设备,通过获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系,针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;将分词结果中存在于领域词典中的名词标记为候选实体名词;建立候选实体名词与领域词典中对应实体名词的链接关系。
在一个实施例中,领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词;计算机程序被处理器执行时还实现以下步骤:
根据分词结果,筛选出存在于领域词典中的目标实体名词;根据领域词典中实体名词携带的实体名词类别标识,确定目标实体名词的实体名词类别;将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于与领域词典关联的分词工具,遍历领域词典,将待处理文本与领域词典中的实体名词进行匹配,得到匹配结果;根据匹配结果,对待处理文本进行分词处理,得到分词结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当候选实体名词满足预设的链接展示条件时,建立候选实体名词与领域词典中对应实体名词的链接关系,其中,预设的链接展示条件包括在待处理文本中不包含候选实体名词的释义文本、候选实体名词在待处理文本中第一次出现、在待处理文本中不包含候选实体名词的链接、以及待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取待处理文本中链接数量与分词结果数量的比例数据;当比例数据小于预设比例时,获取候选实体名词在待处理文本中的链接信息;当链接信息为候选实体名词无对应链接时,获取候选实体名词在待处理文本中的出现次数;当出现次数为第一次时,从待处理文本中查找候选实体名词的释义文本;当释义文本查找失败时,建立候选实体名词与领域词典中对应实体名词的链接。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取待处理文本中链接数量与分词结果数量的比例数据、候选实体名词在待处理文本中的链接信息、候选实体名词在待处理文本中的出现次数以及候选实体名词在待处理文本中的释义文本查找结果;当比例数据小于预设比例、链接信息为候选实体名词无对应链接、出现次数为第一次且释义文本查找结果为查找失败时,建立候选实体名词与领域词典中对应实体名词的链接关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当比例数据不小于预设比例、或链接信息为候选实体名词存在对应链接、或出现次数不为第一次、或释义文本查找结果为查找成功时,将候选实体名词标记为无需链接实体名词。
上述用于实现实体名词链接方法的计算机存储介质,通过获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系,针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种实体名词链接方法,其特征在于,所述方法包括:
获取待处理文本,并根据所述待处理文本所属的垂直领域,确定所述垂直领域的领域词典;
基于与所述领域词典关联的分词工具,对所述待处理文本进行分词处理,得到分词结果;
将所述分词结果中存在于所述领域词典中的名词标记为候选实体名词;
建立所述候选实体名词与所述领域词典中对应实体名词的链接关系。
2.根据权利要求1所述的方法,其特征在于,所述领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词;
所述将所述分词结果中存在于所述领域词典中的名词标记为候选实体名词包括:
根据所述分词结果,筛选出存在于所述领域词典中的目标实体名词;
根据所述领域词典中实体名词携带的实体名词类别标识,确定所述目标实体名词的实体名词类别;
将所述实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
3.根据权利要求1所述的方法,其特征在于,所述基于与所述领域词典关联的分词工具,对所述待处理文本进行分词处理,得到分词结果包括:
基于与所述领域词典关联的分词工具,遍历所述领域词典,将所述待处理文本与所述领域词典中的实体名词进行匹配,得到匹配结果;
根据所述匹配结果,对所述待处理文本进行分词处理,得到分词结果。
4.根据权利要求1所述的方法,其特征在于,所述建立所述候选实体名词与所述领域词典中对应实体名词的链接关系包括:
当所述候选实体名词满足预设的链接展示条件时,建立所述候选实体名词与所述领域词典中对应实体名词的链接关系,其中,所述预设的链接展示条件包括在所述待处理文本中不包含所述候选实体名词的释义文本、所述候选实体名词在待处理文本中第一次出现、在所述待处理文本中不包含所述候选实体名词的链接、以及所述待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
5.根据权利要求1所述的方法,其特征在于,所述建立所述候选实体名词与所述领域词典中对应实体名词的链接关系包括:
获取所述待处理文本中链接数量与分词结果数量的比例数据;
当所述比例数据小于预设比例时,获取所述候选实体名词在所述待处理文本中的链接信息;
当所述链接信息为所述候选实体名词无对应链接时,获取所述候选实体名词在所述待处理文本中的出现次数;
当所述出现次数为第一次时,从所述待处理文本中查找所述候选实体名词的释义文本;
当所述释义文本查找失败时,建立所述候选实体名词与所述领域词典中对应实体名词的链接。
6.根据权利要求1所述的方法,其特征在于,所述建立所述候选实体名词与所述领域词典中对应实体名词的链接关系包括:
获取所述待处理文本中链接数量与分词结果数量的比例数据、所述候选实体名词在所述待处理文本中的链接信息、所述候选实体名词在所述待处理文本中的出现次数以及所述候选实体名词在所述待处理文本中的释义文本查找结果;
当所述比例数据小于预设比例、所述链接信息为所述候选实体名词无对应链接、所述出现次数为第一次且所述释义文本查找结果为查找失败时,建立所述候选实体名词与所述领域词典中对应实体名词的链接关系。
7.根据权利要求6所述的方法,其特征在于,所述获取所述待处理文本中链接数量与分词结果数量的比例数据、所述候选实体名词在所述待处理文本中的链接信息、所述候选实体名词在所述待处理文本中的出现次数以及所述候选实体名词在所述待处理文本中的释义文本查找结果之后,还包括:
当所述比例数据不小于预设比例、或所述链接信息为所述候选实体名词存在对应链接、或所述出现次数不为第一次、或所述释义文本查找结果为查找成功时,将所述候选实体名词标记为无需链接实体名词。
8.一种实体名词链接装置,其特征在于,所述装置包括:
文本获取模块,用于获取待处理文本,并根据所述待处理文本所属的垂直领域,确定所述垂直领域的领域词典;
分词模块,用于基于与所述领域词典关联的分词工具,对所述待处理文本进行分词处理,得到分词结果;
标记模块,用于将所述分词结果中存在于所述领域词典中的名词标记为候选实体名词;
链接关系建立模块,用于建立所述候选实体名词与所述领域词典中对应实体名词的链接关系。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011239234.3A CN112364640A (zh) | 2020-11-09 | 2020-11-09 | 实体名词链接方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011239234.3A CN112364640A (zh) | 2020-11-09 | 2020-11-09 | 实体名词链接方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364640A true CN112364640A (zh) | 2021-02-12 |
Family
ID=74509887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011239234.3A Pending CN112364640A (zh) | 2020-11-09 | 2020-11-09 | 实体名词链接方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364640A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657113A (zh) * | 2021-08-24 | 2021-11-16 | 北京字跳网络技术有限公司 | 文本处理方法、装置和电子设备 |
-
2020
- 2020-11-09 CN CN202011239234.3A patent/CN112364640A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657113A (zh) * | 2021-08-24 | 2021-11-16 | 北京字跳网络技术有限公司 | 文本处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
CN110427487B (zh) | 一种数据标注方法、装置及存储介质 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN111680634A (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN111507330A (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN110737770B (zh) | 文本数据敏感性识别方法、装置、电子设备及存储介质 | |
CN112989043B (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
US11803796B2 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN112364640A (zh) | 实体名词链接方法、装置、计算机设备和存储介质 | |
CN110705257B (zh) | 媒体资源的识别方法、装置、存储介质及电子装置 | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
CN112100978B (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN110532391B (zh) | 一种文本词性标注的方法及装置 | |
CN111488737B (zh) | 文本识别方法、装置及设备 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN112257400A (zh) | 表格数据提取方法、装置、计算机设备和存储介质 | |
CN111931480A (zh) | 文本主要内容的确定方法、装置、存储介质及计算机设备 | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |