CN113051912B - 一种基于成词率的领域词识别方法及装置 - Google Patents

一种基于成词率的领域词识别方法及装置 Download PDF

Info

Publication number
CN113051912B
CN113051912B CN202110377911.6A CN202110377911A CN113051912B CN 113051912 B CN113051912 B CN 113051912B CN 202110377911 A CN202110377911 A CN 202110377911A CN 113051912 B CN113051912 B CN 113051912B
Authority
CN
China
Prior art keywords
word
candidate
word set
candidate word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110377911.6A
Other languages
English (en)
Other versions
CN113051912A (zh
Inventor
方正云
杨政
李萍
尹春林
刘柱揆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Yunnan Power Grid Co Ltd filed Critical Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority to CN202110377911.6A priority Critical patent/CN113051912B/zh
Publication of CN113051912A publication Critical patent/CN113051912A/zh
Application granted granted Critical
Publication of CN113051912B publication Critical patent/CN113051912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及文本处理技术领域,提供一种基于成词率的领域词识别方法及装置,所述一种基于成词率的领域词识别方法包括:获取某一领域的文本数据,对文本数据进行文本预处理得到第一文本;对第一文本中的字符串进行成词率计算及阈值筛选,获得第一候选词集;利用第一候选词集对第一文本进行切分,获得第二候选词集;根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集;对第三候选词集进行常用词过滤,获得第四候选词集;对第四候选词集进行向量化及聚类处理,获得领域词词集。上述基于成词率的领域词识别方法有效提高了领域词识别的准确性,并具有更高的领域词识别效率。

Description

一种基于成词率的领域词识别方法及装置
技术领域
本申请属于文本处理技术领域,具体涉及一种基于成词率的领域词识别方法及装置。
背景技术
领域词是指通过语言或文字来表达或限定专业概念的约定性语言符号,常出现在某些特定领域,而很少在与特定领域不相关的领域出现。比如继电器是电力领域词,低碳是环保领域词,人工智能是计算机领域词。在当前这个各行各业都处于信息爆炸的时代,时刻都会有海量语料涌入数据库。对这些语料进行自然语言处理技术的量化分析首先需要的就是分词,其主要依赖基于词典的匹配。由此可见,领域词词库可以对其领域文档进行有效的分词,从而进一步量化分析。
领域词识别是指从现有相关文本数据中抽取出候选词集,并对候选词集进行加工处理得到某一领域的领域词集合的过程。某一领域的文本数据,包括科技项目文本、期刊和论文等,是具有较高研究价值的专业领域资源,有较为规范的格式。领域词是其领域文本数据的重要构成单元,与文本主题及研究领域高度相关。因此,从某一领域的文本数据中识别领域词是构建领域词词库的基础,也对了解和把握该领域发展现状以及未来趋势具有重要的理论和现实意义。
传统的领域词识别方法主要有基于词语统计特性的方法、基于规则的方法以及基于序列模式机器学习的方法。基于词语统计特性的方法,即通过统计字符串的相关统计特征来判断该字符串是否可以构成一个词语,主要用到的参数有频率、似然比和互信息等。利用统计的方法虽然方便简单,但由于缺少词性的规则会遗留较多垃圾字串和非领域词,仍然需要进行人工的筛选。基于规则的方法通常将汉语成词规则与一些领域先验知识结合,这种方法虽然准确性相对较高,但是泛化能力差,需要大量相关领域知识和人工构建规则。基于序列模式机器学习方法譬如通过条件随机场模型训练,也需要大量人工标注语料,耗时耗力。
为了节省人力成本,近些年来,人们致力于研究不需要人力干预的领域词识别无监督方法。现有技术公开了一种基于聚类算法的电力文本词典构造方法,包括利用通用的词典对文本进行分词,再通过word2vec模型进行词向量构造,最后进行k-means聚类。现有技术还提出了依赖互信息或邻接熵得到候选词集,进而利用word2vec进行词向量转化和k-means聚类,最终得到行业领域词。然而,此类方法在筛选候选词集时对词语组合规律运用的不够全面,筛选的候选词集存在诸多不合理的词语,导致后期聚类时工作量骤增,影响效率和准确性。
发明内容
本申请提供一种基于成词率的领域词识别方法及装置,以提供一种准确性和识别效率更高的领域词识别方法及装置。
本申请第一方面提供一种基于成词率的领域词识别方法,所述一种基于成词率的领域词识别方法包括:
获取某一领域的文本数据,对所述文本数据进行文本预处理得到第一文本,所述文本预处理包括去除掉停用词和标点符号;
根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度,利用成词率模型,获得所述字符串的成词率,所述成词率模型为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
式中Suc为成词率,m为归一化常数,Mut为互信息,Adjl为左熵,Adjr为右熵,Reg为构词规律,k1和k2为互信息与左右熵的值映射到相近的量级,k1取值为Mut均值除以Adjl的均值,k2取值为Mut均值除以Adjr的均值;
建立一个空的第一候选词集,比较任一字符串的成词率与设定阈值的大小,若字符串的成词率大于或等于设定阈值,则将所述字符串放入第一候选词集;
利用第一候选词集对第一文本进行切分,获得第二候选词集;
根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集,所述回溯算法为:判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度,若所述词语的词语长度小于或等于预设的最长词语长度,则判断所述词语是否在第一候选词集中,若所述词语不在第一候选词集中,则从第二候选词集中删除所述词语;若所述词语的词语长度大于预设的最长词语长度,则判断第一候选词集中是否存在有所述词语的连续子字符串,若第一候选词集中不存在有所述词语的连续子字符串,则从第二候选词集中删除所述词语;
对第三候选词集进行常用词过滤,获得第四候选词集;
对第四候选词集中的词语进行向量化及聚类处理,得到领域词词集,所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。
可选的,所述构词规律是指根据构词学基本原理定义的字符串成词规律,所述构词规律计算公式为:
Figure BDA0003011537380000021
式中a、b为搭配成词的两个字符串。
可选的,所述成词率模型中预设的最长词语长度n为4。
可选的,所述利用第一候选词集对第一文本进行切分,获得第二候选词集的步骤,具体为:
步骤401:预设一个大于所述成词率模型中预设的最长词语长度的判定阈值;
步骤402:遍历第一文本中词语长度为判定阈值的字符串,并获取所述字符串的所有连续子字符串,若所有连续子字符串中有一半以上的连续子字符串属于第一候选词集,则所述字符串从第一文本中删除,并将所述字符串放入所述第二候选词集,并用删除所述字符串的第一文本更新第一文本,获得更新后的第一文本;
步骤403:将判定阈值减一,若判定阈值大于所述成词率模型中预设的最长词语长度,则进入步骤402;若判定阈值小于或等于所述成词率模型中预设的最长词语长度,则进入步骤404;
步骤404:利用第一候选词集对更新后的第一文本进行分词,遵循最大匹配法,将分词后的字符串放入第二候选词集。
可选的,所述对第三候选词集进行常用词过滤得到第四候选词集的步骤包括:
获取其他至少一个领域的文本数据;
对其他领域的文本数据进行抽取筛选得到备用候选词集;
将所述第三候选词集过滤掉第三候选词集和备用候选词集的交集,得到第四候选词集。
可选的,所述对第四候选词集中的词语进行向量化及聚类处理的具体步骤包括:根据BERT算法将第四候选词集中的词语转化成词向量,所述词向量维度为512;运用谱聚类进行降维处理并聚类,在进行所述谱聚类操作时,使用Sklearn的谱聚类函数。
本申请第二方面提供一种基于成词率的领域词识别装置,所述一种基于领域词的识别装置用于执行权利要求1-6任一项所述的一种基于成词率的领域词识别方法,包括:
数据获取模块,用于获取某一领域的文本数据;
数据预处理模块,用于对所述某一领域的文本数据进行文本预处理获得第一文本;
成词率筛选模块,包括:
成词率计算单元,用于根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度来计算所述字符串的成词率,所述成词率计算公式为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
式中Suc为成词率,m为归一化常数,Mut为互信息,Adjl为左熵,Adjr为右熵,Reg为构词规律,k1和k2为互信息与左右熵的值映射到相近的量级,k1取值为Mut均值除以Adjl的均值,k2取值为Mut均值除以Adjr的均值;
筛选单元,用于建立一个空的第一候选词集,判断任一字符串的成词率与设定阈值的大小,若字符串的成词率大于或等于设定阈值,则将所述字符串放入所述第一候选词集;
文本切片模块,包括:
切分单元,用于利用第一候选词集对第一文本进行切分,获得第二候选词集;
回溯单元,用于判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度,若所述词语的词语长度小于或等于预设的最长词语长度,则判断所述词语是否在第一候选词集中,若所述词语不在第一候选词集中,则从第二候选词集中删除所述词语;若所述词语的词语长度大于预设的最长词语长度,则判断第一候选词集中是否存在有所述词语的连续子字符串,若第一候选词集中不存在有所述词语的连续子字符串,则从第二候选词集中删除所述词语;
常用词过滤模块,用于对第三候选词集进行常用词过滤,获得第四候选词集;
聚类模块,用于对第四候选词集中的词语进行向量化及聚类处理,获得领域词词集,所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。
可选的,所述常用词过滤模块用于获取其他至少一个领域的文本数据;以及用于对其他领域的文本数据进行抽取筛选得到备用候选词集;还用于将所述第三候选词集过滤掉第三候选词集和备用候选词集的交集,得到第四候选词集。
可选的,所述聚类模块用于根据BERT算法将第四候选词集中的词语转化成词向量,所述词向量维度为512;以及用于运用谱聚类进行降维处理并聚类,在进行所述谱聚类操作时,使用Sklearn的谱聚类函数。
本申请提供一种基于成词率的领域词识别方法及装置,所述一种基于成词率的领域词识别装置用于执行所述一种基于成词率的领域词识别方法的步骤,获取某一领域的文本数据,对文本数据进行文本预处理得到第一文本;对第一文本中的字符串进行成词率计算及阈值筛选,获得第一候选词集;利用第一候选词集对第一文本进行切分,获得第二候选词集;根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集;对第三候选词集进行常用词过滤,获得第四候选词集;对第四候选词集进行向量化及聚类处理,获得领域词词集。
本申请实施例提供的基于成词率的领域词识别方法,通过成词率分析与阈值筛选、文本切分与回溯算法以及常用词过滤与谱聚类,有效提高了领域词识别的效率和准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于成词率的领域词识别方法的流程示意图。
图2是本申请实施例提供的一种基于成词率的领域词识别装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。
如图1所示,为本申请实施例提供的一种基于成词率的领域词识别方法的流程示意图,所述一种基于成词率的领域词识别方法包括步骤S101至步骤S107。
步骤S101,获取某一领域的文本数据,对所述文本数据进行文本预处理得到第一文本。
根据具体需求确定获取文本数据的领域,该领域可以是电力领域,环保领域或计算机领域等。所述文本数据的获取可以使用任意方式,例如通过抓取与待获取文本领域对应的互联网网页来得到对应领域文本,该领域文本包括科技项目文本、论文期刊、科普性网页和博客网页等。本领域技术人员还可以通过其他方式获取文本数据,例如从刊物等纸质文件中获取。
本申请实施例从中国南方电网有限公司云南电力科学研究院科技项目申报文档数据库中选取了140篇电力项目科研申请书作为电力领域词识别的文本数据,其中研究主题包括高电压与绝缘技术、电机与电气以及电力系统及自动化等内容。下面表1数据库中各类文本的数量给出了数据集的组成情况。
表1数据库中各类文本的数量
类别 高电压与绝缘技术 电机与电气 电力系统及自动化
数量 50 40 50
获取文本数据后,进行文本预处理,所述文本预处理包括去除掉停用词和标点符号。优选地,本申请实施例文本预处理具体步骤包括步骤S201至步骤S203。
步骤S201,抽取出文档中目的和意义、项目研究内容以及项目实施方案,避免其他电力领域词很少出现的部分干扰最终结果,同时提升算法运行效率。
步骤S202,对抽取出的目的和意义、项目研究内容以及项目实施方案做正则化处理,包括去掉通用格式和数字等对中文领域词识别无意义的字符,例如语气助词、副词、介词、连接词和标点符号。
步骤S203,将处理后的每篇文档拼接起来并存入json(JavaScript ObjectNotation,JS对象简谱)数据库,得到第一文本。
处理前后文档大小及运行时间如下面表2文本数据处理前后对比所示。
表2文本数据处理前后对比
空间大小 运行时间
预处理前 53.8MB 约两小时
预处理后 1.17MB 50秒
另外,在本申请实施例文本预处理后人工对第一文本进行电力领域词筛选。筛选后得到电力领域词总数为619个,例如:高压、绝缘、电路、相位、电阻、电流、继电器、变压器、角阀、空压机、避雷器、电桥、母联、旁路、触头、接地、联接器、冷却塔、电流互感器和日负荷等。
需要说明的是,上述采用人工对第一文本进行电力领域词筛选的过程并不属于本申请方法,仅仅是用来计算本申请实施例的评价指标。所述评价指标为准确率P、召回率R以及F值,计算公式如下:
Figure BDA0003011537380000051
Figure BDA0003011537380000052
Figure BDA0003011537380000053
式中D为通过本申请方法识别的领域词总数;A为文本预处理后人工筛选的领域词总数;C为通过本申请方法识别的电力领域词集与人工筛选的电力领域词集重合部分的总数。
步骤S102,根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度,利用成词率模型,获得所述字符串的成词率。
本申请方法对候选词集筛选度量成词率提出了新的模型,所述成词率模型为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
式中Suc为成词率,m为归一化常数,Mut为互信息,Adjl为左熵,Adjr为右熵,Reg为构词规律,k1和k2为互信息与左右熵的值映射到相近的量级,k1取值为Mut均值除以Adjl的均值,k2取值为Mut均值除以Adjr的均值。
互信息(Mut)是指一个随机变量中包含的关于另一个随机变量的信息量,即随机变量间的联系程度。它包含的信息量越高,变量间的联系程度和词内凝固度就越高,则该字符串越容易成词。互信息Mut的计算公式如下所示,分别表示二、三和四字词的互信息,其中,x、y、z和w代表单个字符。
Figure BDA0003011537380000061
Figure BDA0003011537380000062
Figure BDA0003011537380000063
左右熵(Adj)是指候选词的自由程度,表示词语搭配的不确定性。左右熵越大,词语搭配的不确定性越大,也就是候选的词左右搭配越丰富,则相应的成词概率越高。左右熵计算公式如下所示,其中Adjl为左熵,Adjr为右熵,w为字符串,wr、wl为单前缀与单尾缀。
Figure BDA0003011537380000064
Figure BDA0003011537380000065
构词规律(Reg)是指根据构词学基本原理定义的正则式。需要说明的是,技术领域的专用词汇一般遵循构词学基本原理,即名词与名词、动词以及形容词的结合非常频繁,其他结合方式的比例约四分之一,因此本申请实施例定义的构词规律公式如下,其中a、b为搭配成词的两个字符串。
Figure BDA0003011537380000066
需要说明的是,本申请实施例定义的构词规律公式主要为了应对电力领域词,但是不局限于采用上述构词规律公式,可以根据实际领域词汇特征,适应性的调整构词规律公式。
优选地,在本申请实施例中,通过对电力领域词的研究发现单字成词的比例非常之少,所以本申请实施例没有计算单字的成词率,并且设定筛选的字符串的最长词语长度为4。
步骤S103,建立一个空的第一候选词集,比较任一字符串的成词率与设定阈值的大小,若字符串的成词率大于或等于设定阈值,则将所述字符串放入第一候选词集。
优选地,本申请实施例选取贪心算法的思想进行阈值的取值调整,以F值作为评价标准,设定成词率阈值取值介于0-1之间,步长为0.1,最终确定设定阈值为0.62。
步骤S104,利用第一候选词集对第一文本进行切分,获得第二候选词集。
第一候选词集中仍有诸多的领域词未被筛选出来,譬如词语长度大于预设的最长词语长度的领域词。本申请提出利用第一候选词集对第一文本进行切分,旨在得到更为合理的候选词集,只有可以对文本正确分词的词语才是想要的词语,进一步确保文本数据中的领域词能够挖掘出来的同时词语是准确的,词语内部是足够凝固的。所述利用第一候选词集对第一文本进行切分,获得第二候选词集的具体步骤包括步骤S301至步骤S304。
步骤S301,预设一个大于所述成词率模型中预设的最长词语长度的判定阈值。
步骤S302,遍历第一文本中词语长度为判定阈值的字符串,并获取所述字符串的所有连续子字符串,若所有连续子字符串中有一半以上的连续子字符串属于第一候选词集,则所述字符串从第一文本中删除,并将所述字符串放入所述第二候选词集,并用删除所述字符串的第一文本更新第一文本,获得更新后的第一文本。
步骤S303,将判定阈值减一,若判定阈值大于所述成词率模型中预设的最长词语长度,则进入步骤302;若判定阈值小于或等于所述成词率模型中预设的最长词语长度,则进入步骤304。
步骤S304,利用第一候选词集对更新后的第一文本进行分词,遵循最大匹配法,将分词后的字符串放入第二候选词集。
需要注意的是,步骤S302中所述用删除所述字符串的第一文本来更新第一文本,是指下一次遍历的第一文本是上一次遍历后更新的第一文本。例如,第一文本中有字符串“各项目经理”,获取该字符串的所有连续子字符串,比如“各项”、“各项目”和“项目经理”等,若“各项目经理”的所有连续子字符串有一半以上都属于第一候选词集,则将“各项目经理”从第一文本中删除,下一次遍历的第一文本为删除“各项目经理”后的第一文本。
步骤S105,根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集。
所述回溯算法为,判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度,若所述词语的词语长度小于或等于预设的最长词语长度,则判断所述词语是否在第一候选词集中,若所述词语不在第一候选词集中,则从第二候选词集中删除所述词语;若所述词语的词语长度大于预设的最长词语长度,则判断第一候选词集中是否存在有所述词语的连续子字符串,若第一候选词集中不存在有所述词语的连续子字符串,则从第二候选词集中删除所述词语。
步骤S106,对第三候选词集进行常用词过滤,获得第四候选词集。
所述常用词过滤可以使用已有的常用词词典进行过滤。优选地,采用步骤S401至步骤S403进行常用词过滤。
步骤S401,获取其他至少一个领域的文本数据。
步骤S402,对其他领域的文本数据进行与本申请方法步骤S101、步骤S102、步骤S103、步骤S104和步骤S105相似的步骤,获得备用候选词集。
步骤S403,将所述第三候选词集过滤掉第三候选词集和备用候选词集的交集,得到第四候选词集。
本申请实施例选择50篇经济领域、50篇哲学领域和40篇化工领域的科技文本,合计140篇非电力领域科技文本。对这140篇文本重复与步骤S101、步骤S102、步骤S103、步骤S104和步骤S105相似的步骤,即对这140篇非电力领域科技文本数据进行文本预处理、成词率计算与阈值筛选、文本切分与回溯后得到备用候选词集。需要注意的是,有少数词语会同时是多个不同领域的专业词汇,在不同的领域代表不同的含义,因此本申请实施例优选与电力领域相关性较远的经济领域、哲学领域和化工领域。
需要说明的是,在第三候选词集中不仅存在常用词,还存在非电力领域的领域词。本申请实施例采用的过滤方法不仅可以过滤常用词,也可以进一步地过滤掉一些不属于电力领域的领域词。
步骤S107,对第四候选词集中的词语进行向量化及聚类处理,得到领域词词集,所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。
本申请实施例根据BERT算法将第四候选词集中的词语转化成词向量,所述词向量维度为512。然后运用谱聚类进行降维处理并聚类,在进行所述谱聚类操作时,使用Sklearn的谱聚类函数。所述谱聚类是指把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的无向图进行切图,让切图后不同的子图间边权重和尽可能低,而子图内的边权重和尽可能高,从而达到聚类的目的,即对无向图G=(V,E)进行切图,其中样本集合为V={x1,x2...xn},图顶点间权重集合为E={Ai,j},邻接矩阵用相似矩阵代替为W={Ai,j},定义度D为与当前图相连的所有图的权重Ai,j之和,优化函数如下所示。
Figure BDA0003011537380000081
其中k为切图子图个数,A1/i代表Ai外其他子图,A1/i和Ai的切图权重W定义式为:
Figure BDA0003011537380000082
需要说明的是,为了验证本申请方法的有效性,本申请实施例做了四个消融实验,如表3对比实验结果所示,本申请方法提出的成词率模型相比传统的运用互信息和左右熵的方法具有明显优势;在使用文本切分和回溯算法之后,准确率、召回率和F值也有明显提升;谱聚类相比传统的K-means聚类方法也有明显优势。需要注意的是,聚类算法会使召回率与聚类前相比有所降低。
表3对比实验结果
实验方法 准确率% 召回率% F值%
互信息+左右熵 50.15 78.56 61.22
成词率(互信息+左右熵+构词规律) 61.23 81.05 69.54
成词率+文本切分+回溯 63.19 83.14 71.8
成词率+文本切分+回溯+k-means聚类 82.33 74.75 78.36
成词率+文本切分+回溯+谱聚类 84.51 76.64 80.38
本申请实施例第二方面提供一种基于成词率的领域词识别装置,所述一种基于成词率的领域词识别装置用于执行本申请实施例第一方面提供的一种基于成词率的领域词识别方法,对于本申请实施例第二方面提供的识别装置中公开的细节,请参见本申请实施例第一方面提供的成词率的领域词识别方法。
如图2所示,为本申请实施例提供的一种基于成词率的领域词识别装置的结构示意图。所述一种基于成词率的领域词识别装置包括数据获取模块、数据预处理模块、成词率筛选模块、文本切片模块、常用词过滤模块和聚类模块。
数据获取模块,用于获取某一领域的文本数据。
数据预处理模块,用于对所述某一领域的文本数据进行文本预处理获得第一文本。
成词率筛选模块,包括:
成词率计算单元,用于根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度来计算所述字符串的成词率,所述成词率计算公式为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
式中Suc为成词率,m为归一化常数,Mut为互信息,Adjl为左熵,Adjr为右熵,Reg为构词规律,k1和k2为互信息与左右熵的值映射到相近的量级,k1取值为Mut均值除以Adjl的均值,k2取值为Mut均值除以Adjr的均值。
筛选单元,用于建立一个空的第一候选词集,判断任一字符串的成词率与设定阈值的大小,若字符串的成词率大于或等于设定阈值,则将所述字符串放入所述第一候选词集。
文本切片模块,包括:
切分单元,用于利用第一候选词集对第一文本进行切分,获得第二候选词集。
回溯单元,用于判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度,若所述词语的词语长度小于或等于预设的最长词语长度,则判断所述词语是否在第一候选词集中,若所述词语不在第一候选词集中,则从第二候选词集中删除所述词语;若所述词语的词语长度大于预设的最长词语长度,则判断第一候选词集中是否存在有所述词语的连续子字符串,若第一候选词集中不存在有所述词语的连续子字符串,则从第二候选词集中删除所述词语。
常用词过滤模块,用于对第三候选词集进行常用词过滤,获得第四候选词集。
聚类模块,用于对第四候选词集中的词语进行向量化及聚类处理,获得领域词词集,所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。
进一步的,所述文本切片模块的切分单元用于执行本申请实施例第一方面提供的步骤S104利用第一候选词集对第一文本进行切分中的步骤S401至步骤S404。
进一步的,所述常用词过滤模块用于获取其他至少一个领域的文本数据;以及用于对其他领域的文本数据进行抽取筛选得到备用候选词集;还用于将所述第三候选词集过滤掉第三候选词集和备用候选词集的交集,得到第四候选词集。
进一步的,所述聚类模块用于根据BERT算法将第四候选词集中的词语转化成词向量,所述词向量维度为512;以及用于运用谱聚类进行降维处理并聚类,在进行所述谱聚类操作时,使用Sklearn的谱聚类函数。
本申请提供一种基于成词率的领域词识别方法及装置,所述一种基于成词率的领域词识别方法,包括获取某一领域的文本数据,对文本数据进行文本预处理得到第一文本;对第一文本中的字符串进行成词率计算及阈值筛选,获得第一候选词集;利用第一候选词集对第一文本进行切分,获得第二候选词集;根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集;对第三候选词集进行常用词过滤,获得第四候选词集;对第四候选词集进行向量化及聚类处理,获得领域词词集。
本申请实施例提供的基于成词率的领域词识别方法,通过成词率分析与阈值筛选、文本切分与回溯算法、常用词过滤以及通过谱聚类对候选词集进行聚类得到领域词词集,有效提高了领域词识别的准确性,并具有更高的领域词识别效率。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (9)

1.一种基于成词率的领域词识别方法,其特征在于,包括:
获取某一领域的文本数据,对所述文本数据进行文本预处理得到第一文本,所述文本预处理包括去除掉停用词和标点符号;
根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度,利用成词率模型,获得所述字符串的成词率,所述成词率模型为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
式中Suc为成词率,m为归一化常数,Mut为互信息,Adjl为左熵,Adjr为右熵,Reg为构词规律,k1和k2为互信息与左右熵的值映射到相近的量级,k1取值为Mut均值除以Adjl的均值,k2取值为Mut均值除以Adjr的均值;
建立一个空的第一候选词集,比较任一字符串的成词率与设定阈值的大小,若字符串的成词率大于或等于设定阈值,则将所述字符串放入第一候选词集;
利用第一候选词集对第一文本进行切分,获得第二候选词集;
根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集,所述回溯算法为:判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度,若所述词语的词语长度小于或等于预设的最长词语长度,则判断所述词语是否在第一候选词集中,若所述词语不在第一候选词集中,则从第二候选词集中删除所述词语;若所述词语的词语长度大于预设的最长词语长度,则判断第一候选词集中是否存在有所述词语的连续子字符串,若第一候选词集中不存在有所述词语的连续子字符串,则从第二候选词集中删除所述词语;
对第三候选词集进行常用词过滤,获得第四候选词集;
对第四候选词集中的词语进行向量化及聚类处理,得到领域词词集,所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。
2.根据权利要求1所述的一种基于成词率的领域词识别方法,其特征在于,所述构词规律是指根据构词学基本原理定义的字符串成词规律,所述构词规律计算公式为:
Figure FDA0003011537370000011
式中a、b为搭配成词的两个字符串。
3.根据权利要求1所述的一种基于成词率的领域词识别方法,其特征在于,所述成词率模型中预设的最长词语长度n为4。
4.根据权利要求1所述的一种基于成词率的领域词识别方法,其特征在于,所述利用第一候选词集对第一文本进行切分,获得第二候选词集的步骤,具体为:
步骤401:预设一个大于所述成词率模型中预设的最长词语长度的判定阈值;
步骤402:遍历第一文本中词语长度为判定阈值的字符串,并获取所述字符串的所有连续子字符串,若所有连续子字符串中有一半以上的连续子字符串属于第一候选词集,则将所述字符串从第一文本中删除,并将所述字符串放入所述第二候选词集,并用删除所述字符串的第一文本更新第一文本,获得更新后的第一文本;
步骤403:将判定阈值减一,若判定阈值大于所述成词率模型中预设的最长词语长度,则进入步骤402;若判定阈值小于或等于所述成词率模型中预设的最长词语长度,则进入步骤404;
步骤404:利用第一候选词集对更新后的第一文本进行分词,遵循最大匹配法,将分词后的字符串放入第二候选词集。
5.根据权利要求1所述的一种基于成词率的领域词识别方法,其特征在于,所述对第三候选词集进行常用词过滤得到第四候选词集的步骤包括:
获取其他至少一个领域的文本数据;
对其他领域的文本数据进行抽取筛选得到备用候选词集;
将所述第三候选词集过滤掉第三候选词集和备用候选词集的交集,得到第四候选词集。
6.根据权利要求1所述的一种基于成词率的领域词识别方法,其特征在于,所述对第四候选词集中的词语进行向量化及聚类处理的具体步骤包括:
根据BERT算法将第四候选词集中的词语转化成词向量,所述词向量维度为512;
运用谱聚类进行降维处理并聚类,在进行所述谱聚类操作时,使用Sklearn的谱聚类函数。
7.一种基于成词率的领域词识别装置,其特征在于,所述一种基于成词率的领域词识别装置用于执行权利要求1-6任一项所述的一种基于成词率的领域词识别方法,包括:
数据获取模块,用于获取某一领域的文本数据;
数据预处理模块,用于对所述某一领域的文本数据进行文本预处理获得第一文本;
成词率筛选模块,包括:
成词率计算单元,用于根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度来计算所述字符串的成词率,所述成词率计算公式为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
式中Suc为成词率,m为归一化常数,Mut为互信息,Adjl为左熵,Adjr为右熵,Reg为构词规律,k1和k2为互信息与左右熵的值映射到相近的量级,k1取值为Mut均值除以Adjl的均值,k2取值为Mut均值除以Adjr的均值;
筛选单元,用于建立一个空的第一候选词集,判断任一字符串的成词率与设定阈值的大小,若字符串的成词率大于或等于设定阈值,则将所述字符串放入所述第一候选词集;
文本切片模块,包括:
切分单元,用于利用第一候选词集对第一文本进行切分,获得第二候选词集;
回溯单元,用于判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度,若所述词语的词语长度小于或等于预设的最长词语长度,则判断所述词语是否在第一候选词集中,若所述词语不在第一候选词集中,则从第二候选词集中删除所述词语;若所述词语的词语长度大于预设的最长词语长度,则判断第一候选词集中是否存在有所述词语的连续子字符串,若第一候选词集中不存在有所述词语的连续子字符串,则从第二候选词集中删除所述词语;
常用词过滤模块,用于对第三候选词集进行常用词过滤,获得第四候选词集;
聚类模块,用于对第四候选词集中的词语进行向量化及聚类处理,获得领域词词集,所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。
8.根据权利要求7所述的一种基于成词率的领域词识别装置,其特征在于,所述常用词过滤模块用于获取其他至少一个领域的文本数据;以及用于对其他领域的文本数据进行抽取筛选得到备用候选词集;还用于将所述第三候选词集过滤掉第三候选词集和备用候选词集的交集,得到第四候选词集。
9.根据权利要求7所述的一种基于成词率的领域词识别装置,其特征在于,所述聚类模块用于根据BERT算法将第四候选词集中的词语转化成词向量,所述词向量维度为512;以及用于运用谱聚类进行降维处理并聚类,在进行所述谱聚类操作时,使用Sklearn的谱聚类函数。
CN202110377911.6A 2021-04-08 2021-04-08 一种基于成词率的领域词识别方法及装置 Active CN113051912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110377911.6A CN113051912B (zh) 2021-04-08 2021-04-08 一种基于成词率的领域词识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110377911.6A CN113051912B (zh) 2021-04-08 2021-04-08 一种基于成词率的领域词识别方法及装置

Publications (2)

Publication Number Publication Date
CN113051912A CN113051912A (zh) 2021-06-29
CN113051912B true CN113051912B (zh) 2023-01-20

Family

ID=76519215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110377911.6A Active CN113051912B (zh) 2021-04-08 2021-04-08 一种基于成词率的领域词识别方法及装置

Country Status (1)

Country Link
CN (1) CN113051912B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108881A (ja) * 2005-10-11 2007-04-26 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末、文字入力支援プログラム及び方法
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN106202043A (zh) * 2016-05-20 2016-12-07 北京理工大学 一种基于成词率适应度函数的新词识别免疫遗传方法
CN106484672A (zh) * 2015-08-27 2017-03-08 北大方正集团有限公司 词汇识别方法和词汇识别系统
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN111476025A (zh) * 2020-02-28 2020-07-31 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
CN111783450A (zh) * 2020-06-29 2020-10-16 中国平安人寿保险股份有限公司 语料文本中的短语提取方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710795B (zh) * 2012-06-20 2015-02-11 北京奇虎科技有限公司 热点聚合方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108881A (ja) * 2005-10-11 2007-04-26 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末、文字入力支援プログラム及び方法
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
CN106484672A (zh) * 2015-08-27 2017-03-08 北大方正集团有限公司 词汇识别方法和词汇识别系统
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN106202043A (zh) * 2016-05-20 2016-12-07 北京理工大学 一种基于成词率适应度函数的新词识别免疫遗传方法
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN111476025A (zh) * 2020-02-28 2020-07-31 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
CN111783450A (zh) * 2020-06-29 2020-10-16 中国平安人寿保险股份有限公司 语料文本中的短语提取方法、装置、存储介质及电子设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
An Enhanced Bag-of-Visual Word Vector Space Model to Represent Visual Content in Athletics Images;Kraisak Kesorn;《 IEEE Transactions on Multimedia》;20120229;第14卷(第1期);211-222 *
LSTM Model Based on Multi-Feature Extractor to Detect Flow Pattern Change Characteristics and Parameter Measurement;Zhuoqun Xu;《IEEE SENSORS JOURNAL》;20210201;第21卷(第3期);3713-3721 *
Trust Chain Model and Credibility Analysis in Software Systems;YangZheng,Yinchunlin;《2020 5th International Conference on Computer and Communication Systems》;20200616;153-156 *
双重对抗无监督域自适应绝缘子检测算法;张林华,方正云等;《重庆大学学报》;20210315;第44卷(第3期);122-131 *
基于主动MCNN-SCRF的新能源汽车命名实体识别;马建红;《计算机工程与应用》;20190401;第55卷(第7期);23-29 *
基于句法分析与词向量的领域新词发现方法;赵志滨;《计算机科学》;20190615;第46卷(第6期);29-34 *
基于微博的情感新词发现研究;王非;《软件》;20151115;第36卷(第11期);6-8 *
智能检索技术在科技评审专家管理中的研究应用;刘应洁,杨政等;《云南电力技术》;20191015;第47卷(第5期);21-23 *

Also Published As

Publication number Publication date
CN113051912A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN108829658B (zh) 新词发现的方法及装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN104199965B (zh) 一种语义信息检索方法
CN110717047A (zh) 一种基于图卷积神经网络的Web服务分类方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN109241277A (zh) 基于新闻关键词的文本向量加权的方法及系统
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110222192A (zh) 语料库建立方法及装置
CN111143547A (zh) 一种基于知识图谱的大数据显示方法
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN111339753A (zh) 一种自适应中文新词识别方法与系统
CN107577713A (zh) 基于电力词典的文本处理方法
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN113051912B (zh) 一种基于成词率的领域词识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant