CN109710947A - 电力专业词库生成方法及装置 - Google Patents

电力专业词库生成方法及装置 Download PDF

Info

Publication number
CN109710947A
CN109710947A CN201910058614.8A CN201910058614A CN109710947A CN 109710947 A CN109710947 A CN 109710947A CN 201910058614 A CN201910058614 A CN 201910058614A CN 109710947 A CN109710947 A CN 109710947A
Authority
CN
China
Prior art keywords
word
cutting
fixed length
candidate word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910058614.8A
Other languages
English (en)
Other versions
CN109710947B (zh
Inventor
庄莉
王秋琳
宋立华
张垚
陈江海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Zhejiang Electric Power Co Ltd, Fujian Yirong Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910058614.8A priority Critical patent/CN109710947B/zh
Publication of CN109710947A publication Critical patent/CN109710947A/zh
Priority to PCT/CN2019/099862 priority patent/WO2020151218A1/zh
Application granted granted Critical
Publication of CN109710947B publication Critical patent/CN109710947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种电力专业词库生成方法及装置,其中方法包括如下步骤,获取电力相关语料,对相关语料进行切词,得到候选词,对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。解决现有技术中电力专业词库杂乱不准确,无法满足实际需求的问题。

Description

电力专业词库生成方法及装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种电力行业中专业词库的生成方法及装置。
背景技术
分词技术是自然语言处理中比较基础但又非常重要的技术,在中文语言中单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位。对于英文等拉丁语系的语言而言,由于词之间有空格作为词边际表示,词语一般情况下都能简单且准确的提取出来。而中文语言除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词提取出来。中文分词方法大致分为两种:基于词典的切分,基于统计模型的序列标注切分两种方式,基于词典切分是比较常用且高效的分词方式,其前提是要有词库。
电网公司目前已经积累了大量的电力行业专业语料,为了通过文本分析、挖掘技术对这些语料进行充分利用,当前迫切的需要一个较准确、完整的电力行业词库。
目前的语言分析处理方法主要有基于如下方面:
一、基于CRF(条件随机场)算法的专业词发现
CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,假设X,Y分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量,那么条件随机场(X,Y)就是一个以观察序列X为条件的无向图模型,条件随机场的目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优。方案一通常做法是在人工优选语料中标注出专业领域词,然后利用标注好的语料进行机器学习的CRF模型训练,最后输入专业语料让模型识别出专业词。
方案一对于专业词的识别效果还是较好的,但是前提是要有领域业务专家先对语料进行大量专业词标注,为CRF模型训练提供标注数据。此方案的不足之处就是需要行业专家参与训练数据标注,且需要标注的数据量较大,效率较低。
二、基于统计学原理的专业词库生成
基于统计学原理的词库生成方法不依赖于已有的词库,通常根据词的词频、互信息、左右信息熵特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是专业词还是普通词。然后,再把所有抽出来的词通过设置阈值进行过滤筛选,得到词库。
方案二的词库生成过程是完全无监督的,不需要行业专家进行语料标注工作且效率较高,这是其主要优点。方案二的不足之处是仅仅通过词频、互信息、左右熵的词特征来筛选专业词存在准确率较低的缺点。
发明内容
为此,需要提供一种电力专业词库生成方法,解决现有技术中电力专业词库杂乱不准确,无法满足实际需求的问题;
为实现上述目的,发明人提供了一种电力专业词库生成方法,包括如下步骤,
获取电力相关语料;
对电力相关语料进行切词,得到候选词;
对候选词进行互信息值计算;
将互信息值小于预设互信息值阈值的词剔除。
可选地,所述步骤对相关语料进行切词,得到候选词具体包括:
所述对电力相关语料进行切词,得到候选词,具体包括:
对中文符号分割出的短句根据预设定长长度进行定长切词,得到多个定长切词结果;
对每个定长切词结果,截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。
可选地,还包括步骤,对候选词进行左右信息熵计算,将左右信息熵小于预设的左右信息熵阈值的词剔除。
可选地,还包括步骤,对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
可选地,还包括步骤,对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序,并将排序好的结果呈现给用户。
一种电力专业词库生成装置,包括:
获取模块,用于获取电力相关语料;
切词模块,用于对电力相关语料进行切词,得到候选词;
计算模块,用于对候选词进行互信息值计算;
剔除模块,用于将互信息值小于预设互信息值阈值的词剔除。
具体地,
所述切词模块具体包括:
切词单元,用于对中文符号分割出的短句根据预设定长长度进行定长切词,得到定长切词结果;
分词单元,用于截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。
具体地,还包括左右信息熵计算模块,所述左右信息熵计算模块用于对候选词进行左右信息熵计算,将左右信息熵小于预设左右信息熵阈值的词剔除。
可选地,还包括标注删除模块,所述标注删除模块用于,对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
可选地,还包括排序模块,排序模块用于对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序,并将排序好的结果呈现给用户。
区别于现有技术,本发明可以通过对电力专业语料进行切词,对切词结果进行相关计算从而使得电力专业的词库更加准确,更加有实用性。
附图说明
图1为本发明一实施方式涉及的电力专业词库生成方法的流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为一种电力专业词库生成方法,包括如下步骤,S100获取电力相关语料,对相关语料进行切词,得到候选词,S102对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。
在具体的实施例中,我们的电力相关语料进行全切词,具体包括步骤,
对中文符号分割出的短句进行定长切词,得到定长切词结果;例如通过对获取到的文件先按中文标点切分,然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小推荐6-8)。这样处理的好处在于能够使得定长切词结果能够更加全面,窗口大小选择能够满足进一步细分的切词需要并囊括更多可用的结果。具体的实施例中,对“绕线型转子的变极感应电动机”这句进行窗口为6的N-gram切分,会得到下列切分结果,即定长切词结果:
绕线型转子的
线型转子的变
型转子的变极
转子的变极感
子的变极感应
的变极感应电
变极感应电动
极感应电动机
继续的步骤中,还可以对每个定长切词结果,截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。具体的,分词的步长用于对定长切词结果进行进一步细化,设定n为2至预设定长长度在上例中,就会变成分词取定长切词结果的前2至6个字作为候选词,n每次增加的预设值可以为1,也可以为其他整数。如对“绕线型转子的”进行切词后,会得到如下切分结果:
绕线
绕线型
绕线型转
绕线型转子
绕线型转子的;
通过上述方案,经过定长切词及后续切分词步骤得到的候选词量大而全,同时分两个主要步骤的操作例也能够节省运算资源,并且不会得到过长的候选词结果。最终能够达到有效提高电力专业候选词有效性的效果。
对上述候选词继续进行互信息值的计算,互信息:
互信息值体现了组成当前词的各个字或词之间结合的紧密程度,互信息值越大成词的可能性也越大,计算公式如下:
其中p(x),p(y)分别是候选词中的字或词组分x和y单独出现的概率,p(x,y)是x和y同时出现的概率。通过进行互信息值的计算,并删除互信息值小于阈值的操作方式,能够剔除大概率不成词的字组合,以及不成合成词的词组合,同时提高了本发明方法对候选词筛选之后的有效率。
其他一些进一步的实施例中,还包括步骤,S104对候选词进行左右信息熵计算,设定左右信息熵阈值,将左右信息熵小于该阈值的词剔除。通常一个词可以在各种语境中使用,因此一个词的左右组合比较多,可以用信息熵来表示这个词在语料库中左右组合的丰富程度。通过进行左右信息熵阈值的筛选,可以删除固定词组中部分词被单独作为候选词的情况,提高电力领域专业词库的行业适用性。最终形成的词库可以更为科学。
其他一些实施例中,还可以包括步骤,S106对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。词性标注工具可以借助现有技术,常用带词性标注的分词工具可以包括:jieba、nltk、HanLP、Ansj等,具体用于对候选词中的细分分词词性进行标注,从而得到候选词的词性组合特点,根据词性组合特点再进行删除,例如,较高成词概率的组合:名词+名词、动词+名词、名词+动词等,而较低成词概率的组合有:动词+动词、介词+名词、介词+动词、副词+动词等,可以通过设计删除规则表将具有动词+动词、介词+名词、介词+动词、副词+动词等组分词性的词进行删除,达到候选词优化的效果,提高候选词的有效率,更好地达到电力专业词库构建的效果。
另一实施例中,如图1所示,我们的方法方案还包括步骤,S108对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序。TF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正相关增加,但同时会随着它在语料库中出现的频率成负相关下降,计算公式如下:
其中,表示在语料d中,词w出现的次数,N表示语料总数,Nw表示含有词w的语料数量。通过计算上述TFIDF值进行候选词的排序,并将排序好的结果呈现给用户,将重要程度最高的词选排在最前,能够进一步优化用户的使用体验。
在图1所示的另一些实施例中,本发明方法进行如下步骤:
S100获取电力相关语料,对相关语料进行切词,对中文符号分割出的短句进行定长切词,得到定长切词结果;例如通过对获取到的文件先按中文标点切分,然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小6),再对各定长切词结果中进行再分词,再分词的步长为2至6,得到候选词,
S102对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。
S104对候选词进行左右信息熵计算,设定左右信息熵阈值,将左右信息熵小于该阈值的词剔除。
S106对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
S108对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序。
另一些实施例中,本发明方法进行如下步骤:
S100获取电力相关语料,对相关语料进行切词,对中文符号分割出的短句进行定长切词,得到定长切词结果;例如通过对获取到的文件先按中文标点切分,然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小4),再对各定长切词结果中进行再分词,再分词的步长为2至4,得到候选词,
S102对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。
S104对候选词进行左右信息熵计算,设定左右信息熵阈值,将左右信息熵小于该阈值的词剔除。
S106对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
S108对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序。
另一些实施例中,本发明方法进行如下步骤:
S100获取电力相关语料,对相关语料进行切词,对中文符号分割出的短句进行定长切词,得到定长切词结果;例如通过对获取到的文件先按中文标点切分,然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小8),再对各定长切词结果中进行再分词,再分词的步长为2至8,得到候选词,
S102对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。
S104对候选词进行左右信息熵计算,设定左右信息熵阈值,将左右信息熵小于该阈值的词剔除。
S106对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
S108对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序。
同时,将步骤S102至S108内的任意步骤进行删除也是能够达到效果,或将步骤S102至S106内的任意步骤进行调换顺序,也是没有问题的。
进一步的实施例中,我们还提供一种电力专业词库生成装置,包括:
获取模块,用于获取电力相关语料;
切词模块,用于对电力相关语料进行切词,得到候选词;
计算模块,用于对候选词进行互信息值计算;
剔除模块,用于将互信息值小于预设互信息值阈值的词剔除。
具体地,
所述切词模块具体包括:
切词单元,用于对中文符号分割出的短句根据预设定长长度进行定长切词,得到定长切词结果;
分词单元,用于截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。
具体地,还包括左右信息熵计算模块,所述左右信息熵计算模块用于对候选词进行左右信息熵计算,将左右信息熵小于预设左右信息熵阈值的词剔除。
可选地,还包括标注删除模块,所述标注删除模块用于,对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
优选地,还包括排序模块,排序模块用于对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序,并将排序好的结果呈现给用户。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种电力专业词库生成方法,包括如下步骤:
获取电力相关语料;
对电力相关语料进行切词,得到候选词;
对候选词进行互信息值计算;
将互信息值小于预设互信息值阈值的词剔除。
2.根据权利要求1所述的电力专业词库生成方法,其特征在于,所述对电力相关语料进行切词,得到候选词,具体包括:
对中文符号分割出的短句根据预设定长长度进行定长切词,得到多个定长切词结果;
对每个定长切词结果,截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。
3.根据权利要求1所述的电力专业词库生成方法,其特征在于,还包括步骤,对候选词进行左右信息熵计算,将左右信息熵小于预设的左右信息熵阈值的词剔除。
4.根据权利要求1所述的电力专业词库生成方法,其特征在于,还包括步骤,对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
5.根据权利要求1所述的电力专业词库生成方法,其特征在于,还包括步骤,对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序,并将排序好的结果呈现给用户。
6.一种电力专业词库生成装置,其特征在于,包括:
获取模块,用于获取电力相关语料;
切词模块,用于对电力相关语料进行切词,得到候选词;
计算模块,用于对候选词进行互信息值计算;
剔除模块,用于将互信息值小于预设互信息值阈值的词剔除。
7.根据权利要求6所述的电力专业词库生成装置,其特征在于,所述切词模块具体包括:
切词单元,用于对中文符号分割出的短句根据预设定长长度进行定长切词,得到定长切词结果;
分词单元,用于截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。
8.根据权利要求6所述的电力专业词库生成装置,其特征在于,还包括左右信息熵计算模块,所述左右信息熵计算模块用于对候选词进行左右信息熵计算,将左右信息熵小于预设左右信息熵阈值的词剔除。
9.根据权利要求6所述的电力专业词库生成装置,其特征在于,还包括标注删除模块,所述标注删除模块用于,对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。
10.根据权利要求6所述的电力专业词库生成装置,其特征在于,还包括排序模块,排序模块用于对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序,并将排序好的结果呈现给用户。
CN201910058614.8A 2019-01-22 2019-01-22 电力专业词库生成方法及装置 Active CN109710947B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910058614.8A CN109710947B (zh) 2019-01-22 2019-01-22 电力专业词库生成方法及装置
PCT/CN2019/099862 WO2020151218A1 (zh) 2019-01-22 2019-08-08 电力专业词库生成方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910058614.8A CN109710947B (zh) 2019-01-22 2019-01-22 电力专业词库生成方法及装置

Publications (2)

Publication Number Publication Date
CN109710947A true CN109710947A (zh) 2019-05-03
CN109710947B CN109710947B (zh) 2021-09-07

Family

ID=66261732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910058614.8A Active CN109710947B (zh) 2019-01-22 2019-01-22 电力专业词库生成方法及装置

Country Status (2)

Country Link
CN (1) CN109710947B (zh)
WO (1) WO2020151218A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287495A (zh) * 2019-07-01 2019-09-27 国网江苏省电力有限公司电力科学研究院 一种电力营销专业词识别方法及系统
CN110287488A (zh) * 2019-06-18 2019-09-27 上海晏鼠计算机技术股份有限公司 一种基于大数据和中文特征的中文文本分词方法
CN110413997A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 针对电力行业的新词发现方法及其系统、可读存储介质
CN111090732A (zh) * 2019-12-23 2020-05-01 创意信息技术股份有限公司 一种电力服务信息热点提取方法、装置和电子设备
CN111259171A (zh) * 2020-01-15 2020-06-09 青岛聚看云科技有限公司 一种基于分词索引搜索多媒体资源的方法及服务器
CN111353050A (zh) * 2019-12-27 2020-06-30 北京合力亿捷科技股份有限公司 一种电信客服垂直领域的词库构建方法及工具
WO2020151218A1 (zh) * 2019-01-22 2020-07-30 福建亿榕信息技术有限公司 电力专业词库生成方法及装置、存储介质
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统
CN113010682A (zh) * 2021-03-29 2021-06-22 广东电网有限责任公司 一种命令票系统校核方法、设备及存储介质
CN113268978A (zh) * 2020-02-17 2021-08-17 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007005884A2 (en) * 2005-07-01 2007-01-11 Microsoft Corporation Generating chinese language couplets
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104598530A (zh) * 2014-12-26 2015-05-06 语联网(武汉)信息技术有限公司 一种领域术语抽取的方法
CN105446964A (zh) * 2014-05-30 2016-03-30 国际商业机器公司 用于文件的重复数据删除的方法及装置
CN107402945A (zh) * 2017-03-15 2017-11-28 阿里巴巴集团控股有限公司 词库生成方法及装置、短文本检测方法及装置
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
CN107463548B (zh) * 2016-06-02 2021-04-27 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN109710947B (zh) * 2019-01-22 2021-09-07 福建亿榕信息技术有限公司 电力专业词库生成方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007005884A2 (en) * 2005-07-01 2007-01-11 Microsoft Corporation Generating chinese language couplets
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN105446964A (zh) * 2014-05-30 2016-03-30 国际商业机器公司 用于文件的重复数据删除的方法及装置
CN104598530A (zh) * 2014-12-26 2015-05-06 语联网(武汉)信息技术有限公司 一种领域术语抽取的方法
CN107402945A (zh) * 2017-03-15 2017-11-28 阿里巴巴集团控股有限公司 词库生成方法及装置、短文本检测方法及装置
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏进: "单数组全映射分词词典", 《计算机工程与应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020151218A1 (zh) * 2019-01-22 2020-07-30 福建亿榕信息技术有限公司 电力专业词库生成方法及装置、存储介质
CN110287488A (zh) * 2019-06-18 2019-09-27 上海晏鼠计算机技术股份有限公司 一种基于大数据和中文特征的中文文本分词方法
CN110287495A (zh) * 2019-07-01 2019-09-27 国网江苏省电力有限公司电力科学研究院 一种电力营销专业词识别方法及系统
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN110413997A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 针对电力行业的新词发现方法及其系统、可读存储介质
CN110413997B (zh) * 2019-07-16 2023-04-07 深圳供电局有限公司 针对电力行业的新词发现方法及其系统、可读存储介质
CN111090732A (zh) * 2019-12-23 2020-05-01 创意信息技术股份有限公司 一种电力服务信息热点提取方法、装置和电子设备
CN111353050A (zh) * 2019-12-27 2020-06-30 北京合力亿捷科技股份有限公司 一种电信客服垂直领域的词库构建方法及工具
CN111259171A (zh) * 2020-01-15 2020-06-09 青岛聚看云科技有限公司 一种基于分词索引搜索多媒体资源的方法及服务器
CN113268978A (zh) * 2020-02-17 2021-08-17 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统
CN112632969B (zh) * 2020-12-13 2022-06-21 复旦大学 一种增量式行业词典更新方法和系统
CN113010682A (zh) * 2021-03-29 2021-06-22 广东电网有限责任公司 一种命令票系统校核方法、设备及存储介质

Also Published As

Publication number Publication date
WO2020151218A1 (zh) 2020-07-30
CN109710947B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN109710947A (zh) 电力专业词库生成方法及装置
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
TWI536181B (zh) 在多語文本中的語言識別
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN109918657A (zh) 一种从文本中提取目标关键词的方法
Kaibi et al. A comparative evaluation of word embeddings techniques for twitter sentiment analysis
CN107357777B (zh) 提取标签信息的方法和装置
Gupta et al. Text summarization of Hindi documents using rule based approach
Tunali et al. PRETO: A high-performance text mining tool for preprocessing Turkish texts
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: a case of Hindi, Odia and Bhojpuri
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN109241277A (zh) 基于新闻关键词的文本向量加权的方法及系统
EP3726401A1 (en) Encoding textual information for text analysis
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN107797994A (zh) 基于约束条件随机场的越南语名词组块识别方法
CN104778157A (zh) 一种多文档摘要句的生成方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN116050397A (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
Giri MTStemmer: A multilevel stemmer for effective word pre-processing in Marathi
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
Khemani et al. A review on reddit news headlines with nltk tool
Nuzumlalı et al. Analyzing stemming approaches for Turkish multi-document summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant