CN113779200A - 目标行业词库的生成方法、处理器及装置 - Google Patents
目标行业词库的生成方法、处理器及装置 Download PDFInfo
- Publication number
- CN113779200A CN113779200A CN202111075093.0A CN202111075093A CN113779200A CN 113779200 A CN113779200 A CN 113779200A CN 202111075093 A CN202111075093 A CN 202111075093A CN 113779200 A CN113779200 A CN 113779200A
- Authority
- CN
- China
- Prior art keywords
- corpus
- word
- words
- new word
- industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种目标行业词库的生成方法、处理器及装置。方法包括:获取目标行业语料;对目标行业语料进行语料清洗以确定可用语料;对可用语料进行新词识别以确定新词集合;根据可用语料和新词集合确定短语集合;对新词集合与短语集合进行近义归纳;对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库。提高了行业词库生成的自动化程度,降低了人工统计行业术语或行业新词的工作量与参与度。同时,提升行业词库覆盖的全面性,与词库统计的准确性;将通过此方法获得的行业词库应用于行业文本挖掘任务中,基于其对分词环节带来的优化,能极大提高后续文本挖掘任务的效果。
Description
技术领域
本申请涉及人工智能及自然语言处理技术领域,具体涉及一种目标行业词库的生成方法、处理器及装置。
背景技术
行业词库常用于包含大量行业术语的文本挖掘任务,例如电信工单和医疗报告等的理解分析。针对中文语料进行文本挖掘任务前需要对原始语料进行文本分词。在现有行业词库技术领域中,现有文本分词方法一般基于通用词典(例如jieba)或是基于人工手动搜集整理的行业词库进行匹配分词。前者,由于通用词典一般来源于综合类文本中搜集的词汇,对行业术语的覆盖率较低,用于行业文本分词准确率不高;后者,基于人工阅读,从文本中摘取行业术语,费时费力,效率不高。
且现阶段的行业词库生成技术也还存在许多不足,如下:
1)新词发现存在缺漏,全面性不足:传统词库构建方法中,在新词发现环节,往往基于已有通用词库先行对文本进行分词再搜寻新词,该设计容易拆散潜在的新词,不利于新词发现的全面性与准确性。
2)未覆盖行业常用短语,应用场景受限:在行业文本挖掘的实际应用中,大量场景涉及对相关短语/词组的统计分析,如电信投诉工单分析中的趋势分析、热点分析等。然而,现有词库构建方式并未包含对行业短语/词组的整合,不利于行业词库的实际应用,这一类别应当补充完善。
3)词库建设方法不完善:传统词库构建方法往往只包含对行业术语的发现,然而这一步产生的结果与实际在工程中能够应用的结果还有很大的差别。比如,算法查找的新词无可避免的会存在冗余与误差,可能包含一些不合逻辑的词语;或是,产生的新词大多数与传统词库有交叠,不符合“行业词库”的行业性;甚至,并没有对词库中词语进行词性标注,难以满足实际应用的需要。
发明内容
本申请实施例的目的是提供一种目标行业词库的生成方法、处理器及装置。
为了实现上述目的,本申请第一方面提供一种目标行业词库的生成方法,包括:获取目标行业语料;
对目标行业语料进行语料清洗以确定可用语料;
对可用语料进行新词识别以确定新词集合;
根据可用语料和新词集合确定短语集合;
对新词集合与短语集合进行近义归纳;
对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库。
在本申请实施例中,对可用语料进行新词识别以确定新词集合包括:将可用语料分割为短句和单个字符以形成多个候选词;确定每个候选词的丰富程度和内部稳定度;根据丰富程度和内部稳定度确定候选词得分值;将得分值大于预设得分阈值的候选词选入新词集合。
在本申请实施例中,丰富程度包括左邻字丰富程度和右邻字丰富程度,分别通过公式(1)和公式(2)确定;所候选字的丰富程度通过公式(3)确定;所内部稳定度通过公式(4)和公式(5)确定,候选词得分值通过公式(6)确定:
Solid(W)=p(x,y)*log2(p(x,y)/p(x)p(y)) (4)
Solidavg(W)=Solid(W)/n (5)
Score=Entropy(W)*Solidavg(W) (6)
其中,其中,EL(W)为左邻字丰富程度,ER(W)为右邻字丰富程度,Entropy(W)为丰富程度,Solid(W)为内部稳定度,Solidavg(W)为内部稳定度均值,W为新词集合,p(x,y)为x和y的联合概率分布函数,a为左邻字符串集合,b为右邻字符串集合,e为自然常数,n为候选词数量,Score为候选词得分值。
在本申请实施例中,根据可用语料和新词集合确定短语集合包括:将可用语料分割为短句和单个字符以确定分词结果;将分词结果与新词集合进行过滤,确定候选短语;确定候选短语的权重;将权重大于预设权重阈值的短语选入短语集合。
在本申请实施例中,对新词集合与短语集合进行近义归纳包括:遍历新词集合中的词语并与短语集合中短语做字符串匹配;创建矩阵并通过矩阵得到短语合集中近义短语的对应关系;基于矩阵确定数组,并遍历短语集合和新词集合;根据遍历结果确定短语集合中近义短语集合。
在本申请实施例中,对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库包括:遍历新词集合中的词语;除去新词集合中与预设词典中的相同词语;合并除去相同词语后的新词集合和短语集合以生成目标行业词库。
在本申请实施例中,获取目标行业语料包括:获取目标行业语料文本作为原始语料;将原始语料转换为机器可读语料。
在本申请实施例中,对目标行业语料进行语料清洗以确定可用语料包括:去除目标行业语料中的干扰信息,以生成可用语料。
本申请第二方面提供一种处理器,被配置成执行上述的目标行业词库的生成方法。
本申请第三方面提供一种目标行业词库的生成装置,包括:
语料获取模块,用于获取目标行业语料;
语料清洗模块,用于对目标行业语料进行语料清洗;
新词识别模块,用于确定新词集合;
短语发现模块,用于确定短语集合;
近义归纳模块,用于对新词集合与短语集合进行近义归纳;
过滤去重模块,用于对新词集合进行过滤去重;
人工筛检模块,用于筛检行业词库中的无效词语和短语;
词性标注模块,用于对行业词库中的词语进行词性标注;
处理器,被配置成执行上述的目标行业词库的生成方法。
上述技术方案,通过综合优化算法与构建完整生成目标行业词库的系统流程,提高了行业词库生成的自动化程度,降低了人工统计行业术语或行业新词的工作量与参与度。同时,提升行业词库覆盖的全面性,与词库统计的准确性;将通过此方法获得的行业词库应用于行业文本挖掘任务中,基于其对分词环节带来的优化,能极大提高后续文本挖掘任务的效果。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了根据本申请实施例的目标行业词库的生成方法的流程示意图;
图2示意性示出了根据本申请实施例的目标行业词库的生成方法的构架示意图;
图3示意性示出了根据本申请实施例的目标行业词库的生成方法的逻辑框图;
图4示意性示出了根据本申请实施例的目标行业词库的生成装置的结构框图;
图5示意性示出了根据本申请实施例的计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示意性示出了根据本申请实施例的目标行业词库的生成方法的流程示意图。图1为一个实施例中目标行业词库的生成方法的流程示意图。应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。如图1所示,在本申请一实施例中,提供了一种目标行业词库的生成方法,包括以下步骤:
步骤101,获取目标行业语料。
步骤102,对目标行业语料进行语料清洗以确定可用语料。
步骤103,对可用语料进行新词识别以确定新词集合。
步骤104,根据可用语料和新词集合确定短语集合。
步骤105,对新词集合与短语集合进行近义归纳。
步骤106,对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库。
图2示意性示出了根据本申请实施例的目标行业词库的生成方法的构架示意图;图3示意性示出了根据本申请实施例的目标行业词库的生成方法的逻辑框图。在图2和图3中,可以将目标行业词库的生成方法分为如下几个部分:语料获取,语料清洗,新词识别,短语发现,近义归纳,过滤去重,人工筛检以及词性标注。具体来说,在一个实施例中,获取目标行业语料包括:获取目标行业语料文本作为原始语料;将原始语料转换为机器可读语料。语料获取是通过搜集包含一定行业术语的文本作为原始语料,例如在电信行业中,客服接到的投诉工单就包含了大量的电信业务术语,即为电信行业术语的文本;将原始语料以电脑可读的数据文件的形式输入系统,例如excel,csv,txt等各类格式;读取系统通过读写文件接口,将原始语料信息读入,等待下一步处理。
在一个实施例中,对目标行业语料进行语料清洗以确定可用语料包括:去除目标行业语料中的干扰信息,以生成可用语料。干扰信息包括干扰标点符号。语料清洗是指利用正则匹配等算法程序,去除原始语料中包含的干扰标点符号,将其替换为逗号或句号等不影响文本阅读的基本标点;并基于待提取行业词汇的实际情况,也可过滤原始语料中的数字和字母;通过设定过滤内容(reg),经由文本清洗环节,文本中的各类标点符号以及数字将被去除,形成可用语料(targetdata)。
在一个实施例中,对可用语料进行新词识别以确定新词集合包括:将可用语料分割为短句和单个字符以形成多个候选词;确定每个候选词的丰富程度和内部稳定度;根据丰富程度和内部稳定度确定候选词得分值;将得分值大于预设得分阈值的候选词选入新词集合。在一个具体的实施例中,处理器将可用语料(targetdata)导入新词识别模块后,将可用语料中的文本按逗号和句号等基本标点分割为短句,并将各个短句内按字符进行直接分割,切分为单个字符;限定目标词语长度为2-3(大于3的归为短语),将相邻字符分别拼接成2元组和3元组,形成多个候选词,例如:如“办理橙分期套餐”这个短句产生的2元候选词有:[“办理”、“理橙”、“橙分”、“分期”、“期套”、“套餐”],产生的3元候选词有:[“办理橙”、“理橙分”、“橙分期”、“分期套”、“期套餐”];并计算每个候选词在可用语料中的左右邻字的丰富程度。候选词的左右邻字丰富程度越高,候选词实际为词语的概率越大。以左侧丰富度为例,统计在可用语料中每个候选词左边所有的二元词与三元词及其对应词频,通过公式(1)计算左侧其左邻字丰富程度(左侧丰富度),通过公式(2)计算右邻字丰富程度(右侧丰富度):
此外,候选词的左右两侧丰富度须综合考虑。结合左侧丰富度EL(W),与右侧丰富度ER(W),候选词的邻字丰富度计算公式如公式(3)所示:
其中,候选词左右两侧丰富度值越大,说明该候选词两侧存在的组合越丰富,该候选词为一个实际词语的可能性越高。计算每个候选词在可用语料中的内部稳定度。候选词的内部稳定度越高,表示候选词中的字符经常出现在一起,那么候选词实际为词语的概率越大。候选词内部稳定度计算公式公式(4)所示:
Solid(W)=p(x,y)*log2(p(x,y)/p(x)p(y)) (4)
同时,由于候选词内部稳定值的值会受到候选词长度的影响(候选词越长,稳定值计算值偏大),在本专利中,比较候选词内部稳定度时,增加对其取平均数的这一步操作,如公式(5)所示:
Solidavg(W)=Solid(W)/n (5)
新词识别需要综合考虑左右丰富度和平均内部稳定度,在本申请实施例中,通过计算两者的乘积,表示每个候选词的在可用语料中的得分,如公式(6)所示:
Score=Entropy(W)*Solidavg(W) (6)
新词识别模块输出所有候选词得分从高到低的排序,开发人员根据可用语料文本长度,自行选择将得分值大于预设得分阈值的候选词选入新词集合,作为该行业文本的新词集合。其中,W为新词集合,p(x,y)为x和y的联合概率分布函数,a为左邻字符串集合,b为右邻字符串集合,e为自然常数。
在一个实施例中,根据可用语料和新词集合确定短语集合包括:将可用语料分割为短句和单个字符以确定分词结果;将分词结果与新词集合进行过滤,确定候选短语;确定候选短语的权重;将权重大于预设权重阈值的短语选入短语集合。具体来说,利用从新词识别模块获得的新词集合,结合语料清洗模块获得的可用语料,作为输入传输进短语发现模块。将可用语料中的文本按逗号和句号等基本标点分割为短句;将上一步中生成的新词集合,与任一公开的通用词库(如jieba)合并,利用公开的分词算法,对每个短句进行分词(长度2-6);将分词结果与上一步生成的新词集合,以及所应用的通用词库中的词进行过滤;将过滤后的分词结果中,长度小于等于3的词语进行过滤,只保留长度为4-6个字符的候选短语;遍历可用语料全文,统计各个短语出现的词频和各个短语在可用语料中出现的位置信息,并计算各个短语在文本中的分布情况与权重。短语发现模块输出所有候选短语权重从高到低的排序,开发人员根据可用语料文本长度,自行选择将权重大于预设权重阈值的短语选入短语集合,作为该文本的短语集合。
在一个实施例中,对新词集合与短语集合进行近义归纳包括:遍历新词集合中的词语并与短语集合中短语做字符串匹配;创建矩阵并通过矩阵得到短语合集中近义短语的对应关系;基于矩阵确定数组,并遍历短语集合和新词集合;根据遍历结果确定短语集合中近义短语集合。具体来说,将新词识别模块获得的新词集合(以下可简称为W),和短语发现模块获得的短语集合(以下可简称为P),共同作为输入传入近义归纳模块;处理器依次遍历W中的每一个词语wi,以wi为索引,与P中短语pj做字符串匹配;创建矩阵Aij,以键值对(mi:ni)保存匹配结果,若wi完整存在于pj,则mi=1,ni=wi在pj中的第一个下标;通过矩阵Aij得到短语合集P中近义短语的对应关系;创建map数组M,基于矩阵Aij,同时遍历短语集合P和新词集合W,若Aj中存在name值为1的键值对,则以wi作为M中的一个index,同时,将name值为1的键值对所在下标的j对应的pj以升序的顺序保存至字符串数组中,存入该index对应的value;获得短语集合P中近义短语依照近义顺序的排列M。
在一个实施例中,对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库包括:遍历新词集合中的词语;除去新词集合中与预设词典中的相同词语;合并除去相同词语后的新词集合和短语集合以生成目标行业词库。
具体地,过滤去重包括将新词集合W输入过滤去重模块,引入任意主流通用词典(如Jieba词库)Z,遍历W中的词语Wi,若Wi不与Z中任一Zk匹配,则将Wi存至W_new集合中,直至W遍历完全。合并去重后的新词集合W_new与短语集合P,输出行业词集Y。人工筛检包括:由人工简单浏览行业词集Y;由人工向该模块输入机器可能生成的小部分无效词语和短语Yi,系统从Y中删除掉对应Yi,最终形成行业词库Y_industry。词性标注包括基于系处理器输出的行业词库Y_industry,可以基于实际应用需要,对其中所涉的词语和短语进行词性标注,方便后续文本挖掘任务的使用。其中,词语的属性定义可以采用公开的定义规则,例如:a-形容词;ad-副形词;an-名形词;c-连词;d-副词;n名词;v-动词;vd-副动词等;通过定义规则标注词性后的行业词库,输出为Y_industry_p。
上述技术方案,通过综合优化算法与构建完整生成目标行业词库的系统流程,提高了行业词库生成的自动化程度,降低了人工统计行业术语或行业新词的工作量与参与度。同时,提升行业词库覆盖的全面性,与词库统计的准确性;将通过此方法获得的行业词库应用于行业文本挖掘任务中,基于其对分词环节带来的优化,能极大提高后续文本挖掘任务的效果。
目前行业词库构建方式一般基于已有词库为待处理语料进行分词,再针对分词后结果利用算法发现新词。然而,利用已有词库预先分词会干扰新词发现的有效性,因此,在新词发现模块,本申请对行业语料直接进行新词发现,将文本按字符分割后拼接为候选词,并综合考虑候选词左右丰富度与词内稳定度计算候选词得分,使新词发现环节不依赖于某一现有词集,而是更针对词语的语言学特性,使新词发现更充分更完全。此外,现有行业词库构建方式中往往只考虑新词,未考虑对行业内的常见短语做归纳,在实际行业文本挖掘任务中,针对短语的分析具有较高频的使用场景,如可以应用于热词分析、趋势分析等场景。因此,本申请通过引入短语发现环节,基于新词发现模块的输出,以及考虑短语在该行业语料中的分布情况,在词库中开辟短语词库,以提高行业词库在文本挖掘任务中的应用场景丰富性。与此同时,短语由于其搭配组合的丰富特性,容易存在近义、同义的情况,在文本挖掘的实际使用中,区分近义短语对降低文本分析的冗余程度有很大价值,因此,本申请在构造短语词库的同时,基于新词发现模块产生的新词合集与短语发现模块产生的短语合集,对该行业语料中,相近短语间的逻辑关系进行了梳理,并整合了以词语为索引的近义短语数组,为词库内的近义词辨析做出了贡献。最后,从系统设计的角度,本申请实施例基于在实际工程场景中常遇到的不足,补充完善了过滤去重、人工筛检与词性标注环节,加强了该方法的合理性,也将极大提升该词库的可用性。未来,本申请可用于各个包含较多行业/领域术语的文本挖掘任务,改善文本分词环节的准确性,如在电信行业中,此专利可用于构建电信行业词库,帮助准确划分电信投诉工单文本中的业务术语,提升文本挖掘模型对电信投诉工单的理解能力。此外,基于本专利在短语、近义词、词性等能力方面的支撑,还可用于更广阔的文本分析场景。
在一个实施例中,如图4所示,提供了一种目标行业词库的生成装置400,包括语料获取模块401、语料清洗模块402、新词识别模块403、短语发现模块404、近义归纳模块405、过滤去重模块406、人工筛检模块407和词性标注模块408,其中:
语料获取模块401,用于获取目标行业语料;
语料清洗模块402,用于对目标行业语料进行语料清洗;
新词识别模块403,用于确定新词集合;
短语发现模块404,用于确定短语集合;
近义归纳模块405,用于对新词集合与短语集合进行近义归纳;
过滤去重模块406,用于对新词集合进行过滤去重;
人工筛检模块407,用于筛检行业词库中的无效词语和短语;
词性标注模块408,用于对行业词库中的词语进行词性标注;
处理器409,被配置成执行上述的目标行业词库的生成方法。
目标行业词库的生成装置包括处理器和存储器,上述模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现目标行业词库的生成。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述目标行业词库的生成方法。
本申请实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述目标行业词库的生成方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库(图中未示出)。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种目标行业词库的生成方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标行业语料;对目标行业语料进行语料清洗以确定可用语料;对可用语料进行新词识别以确定新词集合;根据可用语料和新词集合确定短语集合;对新词集合与短语集合进行近义归纳;对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库。
在本申请实施例中,对可用语料进行新词识别以确定新词集合包括:将可用语料分割为短句和单个字符以形成多个候选词;确定每个候选词的丰富程度和内部稳定度;根据丰富程度和内部稳定度确定候选词得分值;将得分值大于预设得分阈值的候选词选入新词集合。
在本申请实施例中,丰富程度包括左邻字丰富程度和右邻字丰富程度,分别通过公式(1)和公式(2)确定;所候选字的丰富程度通过公式(3)确定;所内部稳定度通过公式(4)和公式(5)确定,候选词得分值通过公式(6)确定:
Solid(W)=p(x,y)*log2(p(x,y)/p(x)p(y)) (4)
Solidavg(W)=Solid(W)/n (5)
Score=Entropy(W)*Solidavg(W) (6)
其中,其中,EL(W)为左邻字丰富程度,ER(W)为右邻字丰富程度,Entropy(W)为丰富程度,Solid(W)为内部稳定度,Solidavg(W)为内部稳定度均值,W为新词集合,p(x,y)为x和y的联合概率分布函数,a为左邻字符串集合,b为右邻字符串集合,e为自然常数,n为候选词数量,Score为候选词得分值。
在本申请实施例中,根据可用语料和新词集合确定短语集合包括:将可用语料分割为短句和单个字符以确定分词结果;将分词结果与新词集合进行过滤,确定候选短语;确定候选短语的权重;将权重大于预设权重阈值的短语选入短语集合。
在本申请实施例中,对新词集合与短语集合进行近义归纳包括:遍历新词集合中的词语并与短语集合中短语做字符串匹配;创建矩阵并通过矩阵得到短语合集中近义短语的对应关系;基于矩阵确定数组,并遍历短语集合和新词集合;根据遍历结果确定短语集合中近义短语集合。
在本申请实施例中,对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库包括:遍历新词集合中的词语;除去新词集合中与预设词典中的相同词语;合并除去相同词语后的新词集合和短语集合以生成目标行业词库。
在本申请实施例中,获取目标行业语料包括:获取目标行业语料文本作为原始语料;将原始语料转换为机器可读语料。
在本申请实施例中,对目标行业语料进行语料清洗以确定可用语料包括:去除目标行业语料中的干扰信息,以生成可用语料。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标行业语料;对目标行业语料进行语料清洗以确定可用语料;对可用语料进行新词识别以确定新词集合;根据可用语料和新词集合确定短语集合;对新词集合与短语集合进行近义归纳;对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库。
在本申请实施例中,对可用语料进行新词识别以确定新词集合包括:将可用语料分割为短句和单个字符以形成多个候选词;确定每个候选词的丰富程度和内部稳定度;根据丰富程度和内部稳定度确定候选词得分值;将得分值大于预设得分阈值的候选词选入新词集合。
在本申请实施例中,丰富程度包括左邻字丰富程度和右邻字丰富程度,分别通过公式(1)和公式(2)确定;所候选字的丰富程度通过公式(3)确定;所内部稳定度通过公式(4)和公式(5)确定,候选词得分值通过公式(6)确定:
Solid(W)=p(x,y)*log2(p(x,y)/p(x)p(y)) (4)
Solidavg(W)=Solid(W)/n (5)
Score=Entropy(W)*Solidavg(W) (6)
其中,其中,EL(W)为左邻字丰富程度,ER(W)为右邻字丰富程度,Entropy(W)为丰富程度,Solid(W)为内部稳定度,Solidavg(W)为内部稳定度均值,W为新词集合,p(x,y)为x和y的联合概率分布函数,a为左邻字符串集合,b为右邻字符串集合,e为自然常数,n为候选词数量,Score为候选词得分值。
在本申请实施例中,根据可用语料和新词集合确定短语集合包括:将可用语料分割为短句和单个字符以确定分词结果;将分词结果与新词集合进行过滤,确定候选短语;确定候选短语的权重;将权重大于预设权重阈值的短语选入短语集合。
在本申请实施例中,对新词集合与短语集合进行近义归纳包括:遍历新词集合中的词语并与短语集合中短语做字符串匹配;创建矩阵并通过矩阵得到短语合集中近义短语的对应关系;基于矩阵确定数组,并遍历短语集合和新词集合;根据遍历结果确定短语集合中近义短语集合。
在本申请实施例中,对近义归纳后的新词集合和短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库包括:遍历新词集合中的词语;除去新词集合中与预设词典中的相同词语;合并除去相同词语后的新词集合和短语集合以生成目标行业词库。
在本申请实施例中,获取目标行业语料包括:获取目标行业语料文本作为原始语料;将原始语料转换为机器可读语料。
在本申请实施例中,对目标行业语料进行语料清洗以确定可用语料包括:去除目标行业语料中的干扰信息,以生成可用语料。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种目标行业词库的生成方法,其特征在于,所述方法包括:
获取目标行业语料;
对所述目标行业语料进行语料清洗以确定可用语料;
对所述可用语料进行新词识别以确定新词集合;
根据所述可用语料和所述新词集合确定短语集合;
对所述新词集合与所述短语集合进行近义归纳;
对所述近义归纳后的所述新词集合和所述短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库。
2.根据权利要求1所述的方法,其特征在于,对所述可用语料进行新词识别以确定新词集合包括:
将所述可用语料分割为短句和单个字符以形成多个候选词;
确定每个候选词的丰富程度和内部稳定度;
根据所述丰富程度和所述内部稳定度确定候选词得分值;
将所述得分值大于预设得分阈值的候选词选入新词集合。
3.根据权利要求2所述的方法,其特征在于,所述丰富程度包括左邻字丰富程度和右邻字丰富程度,分别通过公式(1)和公式(2)确定;所候选字的丰富程度通过公式(3)确定;所内部稳定度通过公式(4)和公式(5)确定,所述候选词得分值通过公式(6)确定:
Solid(W)=p(x,y)*log2(p(x,y)/p(x)p(y)) (4)
Solidavg(W)=Solid(W)/n (5)
Score=Entropy(W)*Solidavg(W) (6)
其中,EL(W)为所述左邻字丰富程度,ER(W)为所述右邻字丰富程度,Entropy(W)为所述丰富程度,Solid(W)为所述内部稳定度,Solidavg(W)为内部稳定度均值,W为新词集合,p(x,y)为x和y的联合概率分布函数,a为左邻字符串集合,b为右邻字符串集合,e为自然常数,n为候选词数量,Score为所述候选词得分值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述可用语料和所述新词集合确定短语集合包括:
将所述可用语料分割为短句和单个字符以确定分词结果;
将所述分词结果与所述新词集合进行过滤,确定候选短语;
确定候选短语的权重;
将所述权重大于预设权重阈值的短语选入短语集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述新词集合与所述短语集合进行近义归纳包括:
遍历所述新词集合中的词语并与所述短语集合中短语做字符串匹配;
创建矩阵并通过矩阵得到短语合集中近义短语的对应关系;
基于所述矩阵确定数组,并遍历所述短语集合和所述新词集合;
根据遍历结果确定短语集合中近义短语集合。
6.根据权利要求1所述的方法,其特征在于,所述对所述近义归纳后的所述新词集合和所述短语集合进行过滤去重、人工筛检和词性标注,以生成目标行业词库包括:
遍历所述新词集合中的词语;
除去所述新词集合中与预设词典中的相同词语;
合并除去相同词语后的新词集合和所述短语集合以生成目标行业词库。
7.根据权利要求1所述的方法,其特征在于,所述获取目标行业语料包括:
获取目标行业语料文本作为原始语料;
将所述原始语料转换为机器可读语料。
8.根据权利要求1所述的方法,其特征在于,所述对所述目标行业语料进行语料清洗以确定可用语料包括:
去除所述目标行业语料中的干扰信息,以生成所述可用语料。
9.一种处理器,其特征在于,被配置成执行根据权利要求1至8中任意一项所述的一种目标行业词库的生成方法。
10.一种目标行业词库的生成装置,其特征在于,所述装置包括:
语料获取模块,用于获取目标行业语料;
语料清洗模块,用于对所述目标行业语料进行语料清洗;
新词识别模块,用于确定新词集合;
短语发现模块,用于确定短语集合;
近义归纳模块,用于对所述新词集合与所述短语集合进行近义归纳;
过滤去重模块,用于对新词集合进行过滤去重;
人工筛检模块,用于筛检行业词库中的无效词语和短语;
词性标注模块,用于对行业词库中的词语进行词性标注;以及
如权利要求9所述的处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075093.0A CN113779200A (zh) | 2021-09-14 | 2021-09-14 | 目标行业词库的生成方法、处理器及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075093.0A CN113779200A (zh) | 2021-09-14 | 2021-09-14 | 目标行业词库的生成方法、处理器及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779200A true CN113779200A (zh) | 2021-12-10 |
Family
ID=78843554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111075093.0A Pending CN113779200A (zh) | 2021-09-14 | 2021-09-14 | 目标行业词库的生成方法、处理器及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779200A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982390A (zh) * | 2023-03-17 | 2023-04-18 | 北京邮电大学 | 一种产业链构建和迭代扩充开发方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408818A (zh) * | 2018-10-12 | 2019-03-01 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
CN111897917A (zh) * | 2020-07-28 | 2020-11-06 | 嘉兴运达智能设备有限公司 | 基于多模态自然语言特征的轨道交通行业术语提取方法 |
-
2021
- 2021-09-14 CN CN202111075093.0A patent/CN113779200A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408818A (zh) * | 2018-10-12 | 2019-03-01 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
CN111897917A (zh) * | 2020-07-28 | 2020-11-06 | 嘉兴运达智能设备有限公司 | 基于多模态自然语言特征的轨道交通行业术语提取方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982390A (zh) * | 2023-03-17 | 2023-04-18 | 北京邮电大学 | 一种产业链构建和迭代扩充开发方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460787A (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
WO2021174783A1 (zh) | 近义词推送方法、装置、电子设备及介质 | |
WO2016188279A1 (zh) | 一种故障谱的生成、基于故障谱的检测方法和装置 | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
US20150006528A1 (en) | Hierarchical data structure of documents | |
CN109471889B (zh) | 报表加速方法、系统、计算机设备和存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
Verma et al. | A novel approach for text summarization using optimal combination of sentence scoring methods | |
Jain et al. | Context sensitive text summarization using k means clustering algorithm | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN114329112A (zh) | 内容审核方法、装置、电子设备及存储介质 | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
CN111625579B (zh) | 一种信息处理方法、装置及系统 | |
CN114625889A (zh) | 一种语义消歧方法、装置、电子设备及存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN113010642A (zh) | 语义关系的识别方法、装置、电子设备及可读存储介质 | |
CN111126066A (zh) | 基于神经网络的中文修辞手法的确定方法和装置 | |
CN116910175B (zh) | 自动化移动设备故障层级树构建方法、装置及储存介质 | |
CN103324608A (zh) | 一种词形还原方法及装置 | |
US20230186022A1 (en) | Method and system for finding associations between natural language and computer language | |
CN110765239B (zh) | 热词识别方法、装置及存储介质 | |
JP3289894B2 (ja) | 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 1308, 13th floor, East Tower, 33 Fuxing Road, Haidian District, Beijing 100036 Applicant after: China Telecom Digital Intelligence Technology Co.,Ltd. Address before: Room 1308, 13th floor, East Tower, 33 Fuxing Road, Haidian District, Beijing 100036 Applicant before: CHINA TELECOM GROUP SYSTEM INTEGRATION Co.,Ltd. |