CN113270092A - 一种基于lda算法的调度语音关键词提取方法 - Google Patents

一种基于lda算法的调度语音关键词提取方法 Download PDF

Info

Publication number
CN113270092A
CN113270092A CN202110508716.2A CN202110508716A CN113270092A CN 113270092 A CN113270092 A CN 113270092A CN 202110508716 A CN202110508716 A CN 202110508716A CN 113270092 A CN113270092 A CN 113270092A
Authority
CN
China
Prior art keywords
keywords
scheduling
extraction method
lda algorithm
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110508716.2A
Other languages
English (en)
Inventor
朱余启
单祖植
陈汝昌
莫熙
蒋迪
史文博
尹世豪
伞晨峻
赵海麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Power Grid Co Ltd
Original Assignee
Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Power Grid Co Ltd filed Critical Yunnan Power Grid Co Ltd
Priority to CN202110508716.2A priority Critical patent/CN113270092A/zh
Publication of CN113270092A publication Critical patent/CN113270092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于LDA算法的调度语音关键词提取方法,包括以下步骤:确定调度语音关键词的特征;在调度电话录音转为文本过程中,生成候选关键词;根据LDA算法对各个候选关键词进行打分,然后输出topK个分值最高的候选关键词作为关键词;根据关键词检索文档的目录及段落内容,进行文档的选取并推送给调控中心,调控中心据此实现调控功能。本发明设计合理,其从调度电话录音数据中提取调度术语,自动分析出文本中比较重要的词作为关键词,并将关键词相关调阅的文档推送给调控中心,实现相应的调度控制功能,具有识别速度快、准确率高且易于实现等特点。

Description

一种基于LDA算法的调度语音关键词提取方法
技术领域
本发明属于电力调度自动化技术领域,涉及调度语音语义分析方法,尤其是一种基于LDA算法的调度语音关键词提取方法。
背景技术
随着电网调控一体化的改革深入,电力调度员面对越来越多的海量监控信息,往往受困于表象数据、资料,难以及时快速调取所关心信息,因此,迫切需要增加相应的智能化指挥辅助系统减轻人员工作压力。
调度电话录音数据是电力调度系统中重要的数据,目前,科研人员已经开始使用智能语音识别和语义技术来对调度电话录音进行识别和分析,将调度电话录音数据转换文本数据。由于调度电话录音数据的特殊性,现有技术手段很难对其进行准确识别,难以提取出语音数据中的调度语音关键词,因此,如何快速调取调度电话数据中的关键词并将识别后的文档推送给电力调度人员是目前迫切需要解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种设计合理、准确可靠的基于LDA算法的调度语音关键词提取方法。
本发明解决现有的技术问题是采取以下技术方案实现的:
一种基于LDA算法的调度语音关键词提取方法,包括以下步骤:
步骤1、确定调度语音关键词的特征;
步骤2、在调度电话录音转为文本过程中,从调度电话录音数据中提取调度术语,生成候选关键词;
步骤3、根据LDA算法对各个候选关键词进行打分,然后输出topK个分值最高的候选关键词作为关键词;
步骤4、根据关键词检索文档的目录及段落内容,进行文档的选取并推送给调控中心,调控中心据此实现调控功能。
进一步,所述关键词的特征包括短语特征、统计特征和上下文特征;
进一步,所述短语特征为指观察关键词自身得到的特征,包括短语长度、标注序列、词干、大小写及特殊符号。
进一步,所述统计特征是对整个训练集和当前文本统计各单词得到的特征,包括短语频率和TF-IDF特征。
进一步,所述上下文特征是关键词在文本中的特征,包括前后特征、位置特征和引用特征。
进一步,所述步骤2的具体实现方法包括以下步骤:
步骤2.1、采用基于规则和基于统计的方法进行词性标注;
步骤2.2、使用正则规则提取名词性短语。
进一步,所述基于统计的方法采用隐式马尔可夫模型或最大熵模型。
进一步,所述正则规则是:NP=(NN│JJ)(NN),其中,NN为匹配名词单复数和专有名词单复数,JJ为匹配形容词及其比较级、最高级。
进一步,所述步骤3对各个候选关键词进行打分的方法为:采用gensim自带的LDAmodel进行LDA评分。
本发明的优点和积极效果是:
本发明设计合理,其从调度电话录音数据中提取调度术语,在语音识别一段内容后,首先抽取出候选词,然后对各个候选关键词采用LDA算法打分,输出topK个分值最高的候选词作为关键词,从而自动分析出文本中比较重要的词作为关键词,并将关键词相关调阅的文档推送给调控中心,实现相应的调度控制功能,本发明具有识别速度快、准确率高且易于实现等特点,成功为语义解析提供了可靠的保障,可广泛用于电力调控中心实现电力调度控制功能。
附图说明
图1为本发明的LDA模型示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
本发明基于LDA(Latent Dirichlet Allocation)模型实现,LDA模型就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。如图1所示,假设我们有两类数据分别为深色和浅色,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而深色和浅色数据中心之间的距离尽可能的大。
基于上述设计思想,本发明的一种基于LDA算法的调度语音关键词提取方法,包括以下步骤:
步骤1、确定调度语音关键词的特征。
特征是用在监督学习中表示一个关键词的属性。机器学习模型不能仅仅根据候选词自身判断是否是关键词,还需要更多的信息。
在确定关键词的特征时,需要根据短语长度、标注序列、词干、大小写、特殊符号等短语特征,统计特征频率。本专利使用TF-IDF统计方法,评估一个字词对于一个文件集或一个语料库中的一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在本专利申请中,将关键词的特征分为以下几组:短语特征、统计特征、上下文特征。
其中:
1、短语特征:短语特征是指观察关键词自身可以得到的特征。
很多情况下我们可以根据候选词的长度,词性标注等属性做出判断是否可能是关键词。这一类特征我们也可以通过规则筛选候选词,但利用机器学习模型在训练集上学习,可以避免主观判断错误。短语特征包含以下部分:
(1)短语长度:这里的短语长度是指关键词中词的数量,比如关键词“machinelearning”的长度为2。不同领域中关键词的短语长度变化很大,新闻可能较短,科技论文的关键词可能是一个很长的复合词。即便是本专利关注的电力调度领域,关键词的长度仍然变化幅度较大,从单个单词到长度超过10的短语均有标注。我们无法凭直觉处理短语长度特征乃至短语特征这类特征,但这可以作为描述关键词的一个属性送入机器学习的特征集合。
(2)标注序列POS:POS是指对关键词作词性标注得到的标注序列。可以从词性标注序列得到很多有用的信息,例如完全有名词构成的短语,或者以诸如介词结尾这种不完整的短语不可能是关键词短语。
(3)词干:英文中的词干是指一个单词在变化中不改变的部分。例如常见的名词单复数,形容词的比较级、最高级,动词的时态变化。使用词干可以消除不必要的干扰,增加关键词的准确性。
(4)大小写:这里的大小写特征特定作用于英文文档中。英文中除了句首首字母大写外,专有名词会全部大写或者首字母大写。本专利区分以下几类作为特征:短语各单词首字母均大写,全部大写或全部小写。
(5)特殊符号:特殊符号是指除英文大小写字母以外的字母,包括标点符号,以及科技文献中常见的希腊字母。通常来说特殊符号越多,越不可能是关键词。考虑到完全是特殊符号的短语可能是专有名词,也可能是关键词。
2、统计特征:是对整个训练集和当前文本统计各单词得到的特征,而不能仅仅通过处理短语得到。
统计特征主要是短语频率和TF-IDF等特征,分别说明如下:
(1)短语频率(Term Frequency):关键词的频率是衡量一个单词是否重要的显著特征。
(2)词频-逆向文件频率(TF-IDF,term frequency–inverse documentfrequency):对于某个特定文件的词语t_i来说,其词频计算公式为:
Figure BDA0003059399900000031
上式中ni,j是该词在文件中出现的次数,而分母是文件中所有字词出现的次数和。虽然关键词不等价于高频短语,但通常认为词频越高,成为关键词可能性越大。另一方面考虑到冠词、介词等虚词出现频率虽然高,却没有实际含义,这就是下面逆文档频率处理的情形。
3、上下文特征:对关键词在文本中的特征,例如出现的位置等,通常出现在文档开头的短语较中间才出现的词更重要。上下文特征分别说明如下:
(1)前后特征:前后特征是指在包围关键词前后的单词特征。通常关键词位于句首或者句尾,前后的的词有明显的分界线,本专利中加入了前后单词以及词性标注结果作为特征,来区分关键词的边界。
(2)位置特征:即关键词第一次在文档中出现的位置。通常来说,关键词会出现在文章起始部分,对对长文档来说更是如此。本专利中处理的文档长度较短,文档开头没有综述性的论述,位置特征的效果可能会弱化。另外关键词第一次出现和最后一次出现的距离跨度也是一个重要指标,因为关键词通常会贯穿全文,跨度较长,这点同样对长文档更有效。
(3)引用特征:引用特征是指关键词与最近出现引用的距离。严格来讲,这应该属于文本的结构性特征,而对于科技论文而言,引用具有统一的格式,形如方括号包括的数字,例如“[1]”,夹杂在文本中间。通常引用的内容是简练概括的,与关键词关系密切。
步骤2、在调度电话录音转为文本过程中,从调度电话录音数据中提取调度术语,生成候选关键词:使用的方法是词性标注配合模式匹配,提取名词短语。
通常来说一个句子的单词会聚合成组块(chunking)短语,例如常见的名词短语组块,动词组块等。查看标注的数据集发现,大部分关键词都是名词短语组块,可以通过规则进行模式匹配高效提取这类关键词。
本步骤的具体实现方法包括以下步骤:
步骤2.1、词性标注:词性标注有基于规则和基于统计的方法。
本步骤采用的统计方法包括隐式马尔可夫模型、最大熵模型等进行词性标注,其准确率超过95%。
步骤2.2、提取名词性短语:本专利提取名词性短语使用的正则规则是:NP=(NN│JJ)(NN)。其中NN匹配名词单复数,专有名词单复数,JJ匹配形容词及其比较级、最高级,本方法考虑到平衡候选词数目和召回率选取的规则。
步骤3、根据LDA算法对各个候选关键词进行打分,然后输出topK个分值最高的候选词作为关键词。
LDA是文档主题生成模型,主题生成模型是一种统计模型用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具,用于在文本体中发现隐藏的语义结构。LDA也称三层贝叶斯概率模型,包含词、主题和文档三层结构;利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。
本步骤采用gensim自带的LDAmodel进行LDA评分,其将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
本步骤的实现原理是:候选的关键词与抽取的主题计算相似度并进行排序,得到最终的关键词。其关键点是:计算候选关键词和抽取的主题相似度:每个主题由N个单词*概率的集合来代表。每个文本属于k个主题,把k个主题所包含的词赋予该文档,便得到每个文档的候选词关键词。如果文档分词后得到的词语在候选关键词中,那么将其作为关键词提取出来。
步骤4、文档推送:根据关键词检索文档的目录及段落内容,进行文档的选取并推送给调控中心,调控中心据此实现调控功能。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (9)

1.一种基于LDA算法的调度语音关键词提取方法,其特征在于:包括以下步骤:
步骤1、确定调度语音关键词的特征;
步骤2、在调度电话录音转为文本过程中,从调度电话录音数据中提取调度术语,生成候选关键词;
步骤3、根据LDA算法对各个候选关键词进行打分,然后输出topK个分值最高的候选关键词作为关键词;
步骤4、根据关键词检索文档的目录及段落内容,进行文档的选取并推送给调控中心,调控中心据此实现调控功能。
2.根据权利要求1所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述关键词的特征包括短语特征、统计特征和上下文特征。
3.根据权利要求2所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述短语特征为指观察关键词自身得到的特征,包括短语长度、标注序列、词干、大小写及特殊符号。
4.根据权利要求2所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述统计特征是对整个训练集和当前文本统计各单词得到的特征,包括短语频率和TF-IDF特征。
5.根据权利要求2所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述上下文特征是关键词在文本中的特征,包括前后特征、位置特征和引用特征。
6.根据权利要求1所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:
步骤2.1、采用基于规则和基于统计的方法进行词性标注;
步骤2.2、使用正则规则提取名词性短语。
7.根据权利要求6所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述基于统计的方法采用隐式马尔可夫模型或最大熵模型。
8.根据权利要求6所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述正则规则是:NP=(NN│JJ)(NN),其中,NN为匹配名词单复数和专有名词单复数,JJ为匹配形容词及其比较级、最高级。
9.根据权利要求1所述的一种基于LDA算法的调度语音关键词提取方法,其特征在于:所述步骤3对各个候选关键词进行打分的方法为:采用gensim自带的LDAmodel进行LDA评分。
CN202110508716.2A 2021-05-11 2021-05-11 一种基于lda算法的调度语音关键词提取方法 Pending CN113270092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110508716.2A CN113270092A (zh) 2021-05-11 2021-05-11 一种基于lda算法的调度语音关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110508716.2A CN113270092A (zh) 2021-05-11 2021-05-11 一种基于lda算法的调度语音关键词提取方法

Publications (1)

Publication Number Publication Date
CN113270092A true CN113270092A (zh) 2021-08-17

Family

ID=77230313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110508716.2A Pending CN113270092A (zh) 2021-05-11 2021-05-11 一种基于lda算法的调度语音关键词提取方法

Country Status (1)

Country Link
CN (1) CN113270092A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297323A (zh) * 2022-08-16 2022-11-04 广东省信息网络有限公司 一种rpa流程自动化方法和系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329867A (zh) * 2007-06-21 2008-12-24 西门子(中国)有限公司 一种语音点播方法及装置
CN107193803A (zh) * 2017-05-26 2017-09-22 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN108170666A (zh) * 2017-11-29 2018-06-15 同济大学 一种基于tf-idf关键词提取的改进方法
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110442747A (zh) * 2019-07-09 2019-11-12 中山大学 一种基于关键词的视频摘要生成方法
CN110472005A (zh) * 2019-06-27 2019-11-19 中山大学 一种无监督关键词提取方法
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111143603A (zh) * 2019-12-17 2020-05-12 广州荔支网络技术有限公司 一种基于lda模型的音频用户的兴趣获取方法
CN111475714A (zh) * 2020-03-17 2020-07-31 北京声智科技有限公司 一种信息推荐的方法、装置、设备和介质
CN112328738A (zh) * 2020-10-10 2021-02-05 中国农业银行股份有限公司河北省分行 语音检索方法、终端设备及可读存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112364648A (zh) * 2020-12-02 2021-02-12 中金智汇科技有限责任公司 一种关键词抽取方法、装置、电子设备及存储介质
CN112363903A (zh) * 2020-11-30 2021-02-12 网银在线(北京)科技有限公司 故障报告生成方法、装置、电子设备和计算机可读介质
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112527969A (zh) * 2020-12-22 2021-03-19 上海浦东发展银行股份有限公司 增量意图聚类方法、装置、设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329867A (zh) * 2007-06-21 2008-12-24 西门子(中国)有限公司 一种语音点播方法及装置
CN107193803A (zh) * 2017-05-26 2017-09-22 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN108170666A (zh) * 2017-11-29 2018-06-15 同济大学 一种基于tf-idf关键词提取的改进方法
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110472005A (zh) * 2019-06-27 2019-11-19 中山大学 一种无监督关键词提取方法
CN110442747A (zh) * 2019-07-09 2019-11-12 中山大学 一种基于关键词的视频摘要生成方法
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111143603A (zh) * 2019-12-17 2020-05-12 广州荔支网络技术有限公司 一种基于lda模型的音频用户的兴趣获取方法
CN111475714A (zh) * 2020-03-17 2020-07-31 北京声智科技有限公司 一种信息推荐的方法、装置、设备和介质
CN112328738A (zh) * 2020-10-10 2021-02-05 中国农业银行股份有限公司河北省分行 语音检索方法、终端设备及可读存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112363903A (zh) * 2020-11-30 2021-02-12 网银在线(北京)科技有限公司 故障报告生成方法、装置、电子设备和计算机可读介质
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112364648A (zh) * 2020-12-02 2021-02-12 中金智汇科技有限责任公司 一种关键词抽取方法、装置、电子设备及存储介质
CN112527969A (zh) * 2020-12-22 2021-03-19 上海浦东发展银行股份有限公司 增量意图聚类方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭庆: ""基于图与LDA的中文文本关键词提取算法"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297323A (zh) * 2022-08-16 2022-11-04 广东省信息网络有限公司 一种rpa流程自动化方法和系统

Similar Documents

Publication Publication Date Title
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
Doermann The indexing and retrieval of document images: A survey
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
Li et al. SVM based learning system for information extraction
El et al. Authorship analysis studies: A survey
CN111694958A (zh) 基于词向量与single-pass融合的微博话题聚类方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
Rahimi et al. An overview on extractive text summarization
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
Scharkow Content analysis, automatic
Chakraborty Authorship identification in bengali literature: a comparative analysis
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
Le Nguyen et al. Probabilistic sentence reduction using support vector machines
CN113270092A (zh) 一种基于lda算法的调度语音关键词提取方法
Türkoğlu et al. Author attribution of Turkish texts by feature mining
Bekoulis et al. Graph-based term weighting scheme for topic modeling
CN112215002A (zh) 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
Graovac Text categorization using n-gram based language independent technique
Tadesse et al. Event extraction from unstructured amharic text
Dinarelli et al. Re-ranking models based-on small training data for spoken language understanding
Abuhaiba et al. Author attribution of Arabic texts using extended probabilistic context free grammar language model
CN112270185A (zh) 一种基于主题模型的文本表示方法
Fabrizi et al. A First Step Towards Automatic Consolidation of Legal Acts: Reliable Classification of Textual Modifications
Yao et al. Study of sign segmentation in the text of Chinese sign language
Jiang et al. A novel feature selection based on Tibetan grammar for Tibetan text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817