CN109492078A - 一种基于动态停词的原因挖掘方法 - Google Patents

一种基于动态停词的原因挖掘方法 Download PDF

Info

Publication number
CN109492078A
CN109492078A CN201811161071.4A CN201811161071A CN109492078A CN 109492078 A CN109492078 A CN 109492078A CN 201811161071 A CN201811161071 A CN 201811161071A CN 109492078 A CN109492078 A CN 109492078A
Authority
CN
China
Prior art keywords
text
word
hit
document frequency
reason
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811161071.4A
Other languages
English (en)
Inventor
胡洪兵
何国涛
李全忠
蒲瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Original Assignee
Universal Information Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universal Information Technology (beijing) Co Ltd filed Critical Universal Information Technology (beijing) Co Ltd
Priority to CN201811161071.4A priority Critical patent/CN109492078A/zh
Publication of CN109492078A publication Critical patent/CN109492078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于动态停词的原因挖掘方法,所述方法包括:将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。本发明提高了原因挖掘的准确性和效率。

Description

一种基于动态停词的原因挖掘方法
技术领域
本发明属于语音分析技术领域,更具体地,涉及一种基于动态停词的原因挖掘方法。
背景技术
在客户通过语音进行业务咨询或客服通过语音向客户进行业务推荐的语音通话中,含有很多具有业务价值的信息,如“退保”、“注销”或“投诉”的具体原因,因此从海里语音中挖掘出用户行为的具体原因对业务质量的提升具有重要意义。
现有技术中,对语音中原因的挖掘一般通过人工听语音后,对语音进行分析,然后记录语音中的原因。由于人的听力能力有限,很容易出现漏听和错听的情况,语音播放设备的质量也会影响到语音播放的效果。且人的听力易受到语音播放环境的干扰。当语音的量很大时,通过人工挖掘语音中的原因,需要花费大量的时间和人力。
综上所述,现有方法中通过人工挖掘语音中的原因费时费力,且容易出错。
发明内容
为克服上述现有通过人工挖掘语音中的原因费时费力,且容易出错的问题或者至少部分地解决上述问题,本发明提供一种基于动态停词的原因挖掘方法。
根据本发明的一方面,提供一种基于动态停词的原因挖掘方法,包括:
将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;
计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;
从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。
本发明提供一种基于动态停词的原因挖掘方法,该方法通过将语音转换为文本后,根据预设关键词对文本进行筛选获取命中文本,再根据命中文本中各词语在命中文本和非命中文本中的文档频率,确定命中文本中的停用词,使用过滤掉停用词后的命中文本进行原因挖掘,从而将命中文本中的通用词语去掉,提高了原因挖掘的准确性和效率。
附图说明
图1为本发明实施例提供的原因挖掘整体流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的一个实施例中提供一种基于动态停词的原因挖掘方法,图1为本发明实施例提供的原因挖掘方法整体流程示意图,该方法包括:S101,将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;
其中,待挖掘语音集合为需要进行原因挖掘的语音的集合。原始文本为直接将待挖掘语音转换成的文本。将每一通待挖掘语音转换为一个原始文本。本实施例不限于将待挖掘语音转换为原始文本的方法。判断各原始文本中是否包含预设关键词。预设关键词为预先设定的关键词,如“投诉”、“注销”或“退保”。将包含预设关键词的原始文本作为命中文本,将未包含预设关键词的文本作为未命中文本。
S102,计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;
其中,词语的文档频率是指包含该词语的文档的个数。停用词是指不用于原因挖掘的词语。将命中文本中各词语在命中文本中的第一文档频率和在未命中文本中的第二文档频率分别与相应的预设阈值进行比较,根据比较结果,确定命中文本中的各词语是否为停用词。
S103,从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。
具体地,将命中文本中的停用词过滤掉,即去掉。将去掉停用词后的命中文本作为目标文本,从目标文本中挖掘出预算关键词对应的原因。本实施例不限于从目标文本中挖掘原因的方法。
本实施例通过将语音转换为文本后,根据预设关键词对文本进行筛选获取命中文本,再根据命中文本中各词语在命中文本和非命中文本中的文档频率,确定命中文本中的停用词,使用过滤掉停用词后的命中文本进行原因挖掘,从而将命中文本中的通用词语去掉,提高了原因挖掘的准确性和效率。
在上述实施例的基础上,本实施例中计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率的步骤具体包括:对于所述命中文本中的任一词语,统计包含该词语的所述命中文本的第一个数和包含该词语的所述未命中文本的第二个数,将所述第一个数作为该词语在所有所述命中文本中的第一文档频率,将所述第二个数作为该词语在所有所述未命中文本中的第二文档频率。
在上述实施例的基础上,本实施例中根据所述第一文档频率和所述第二文档频率确定停用词的步骤具体包括:对于所述命中文本中的任一词语,若该词语对应的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值,则将该词语作为停用词;其中,所述第一预设阈值与所述第二预设阈值之间的比值等于所述命中文本的总个数与所述未命中文本的总个数之间的比值。
具体地,当词语的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值时,说明较多的命中文本中包含该词语时,较多的未命中文本也包含该词语,此时说明该词语为通用的词语,将该词语作为停用词,从命中文本中过滤掉,不用于原因挖掘。
在上述各实施例的基础上,本实施例中从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因。
其中,TextRank算法基于PageRank算法,用于为文本生成关键字或摘要。通过将文本分割成若干组成单元,如单词或句子,并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用文档本身的信息即可实现关键词或文摘的提取。
在上述实施例的基础上,本实施例中基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:根据所述目标文本中的各词语构建图模型;根据所述图模型,计算所述目标文本中各词语的权重;将所述目标文本中权重最大的预设个数的词语作为候选词语,在所述命中文本中对所述候选词语进行标记;若标记的所述候选词语在所述命中文本中相邻,则根据各所述候选词语在所述命中文本中出现的先后顺序对所述候选词语进行组合,将组合结果作为所述预设关键词对应的原因。
具体额,先将目标文本按照完整的句子进行分割,再将每个句子进行分词。使用目标文本中的各词语构建图模型。根据所述图模型,计算目标文本中各词语的权重。计算公式为:
其中,Vi为图模型中第i个节点,WS(Vi)为第i个节点对应的词语的权重,Vj为图模型中第j个节点,WS(Vj)为第j个节点对应的词语的权重,d为阻尼系数,取值范围为0到1,表示图模型中从某一特定节点指向其他节点的概率,一般取值为0.85,In(Vi)为指向节点Vi的节点集合,Out(Vi)为节点Vi指向的节点集合,wji为节点Vi与节点Vj之间边的权重,wjk为节点Vj与节点Vk之间边的权重。对各节点对应的词语的权重进行排序,从而获取权重最大的预设个数的词语,将其作为候选词语。在命中文本中对候选词语进行标记,若标记的候选词语在命中文本中相邻,则按照各候选词语在命中文本中出现的先后顺序对各候选词进行排序后组合,将组合结构作为预设关键词对应的原因。
在上述实施例的基础上,本实施例中根据所述目标文本中的各词语构建图模型的步骤具体包括:将所述目标文本中的词语作为所述图模型的节点;使用共现关系构造任意两个所述节点之间的边。
具体地,图模型为一个有向有权图G=(V,E),其中,V为节点集合,由目标文本中的各词语组成。E为边集合。使用共现关系构造任意两个所述节点之间的边。具体为当两个节点对应的词语在长度为预设长度的窗口中共现,则两个节点之间存在边。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于动态停词的原因挖掘方法,其特征在于,包括:
将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;
计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;
从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。
2.根据权利要求1所述的方法,其特征在于,计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率的步骤具体包括:
对于所述命中文本中的任一词语,统计包含该词语的所述命中文本的第一个数和包含该词语的所述未命中文本的第二个数,将所述第一个数作为该词语在所有所述命中文本中的第一文档频率,将所述第二个数作为该词语在所有所述未命中文本中的第二文档频率。
3.根据权利要求1所述的方法,其特征在于,根据所述第一文档频率和所述第二文档频率确定停用词的步骤具体包括:
对于所述命中文本中的任一词语,若该词语对应的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值,则将该词语作为停用词;其中,所述第一预设阈值与所述第二预设阈值之间的比值等于所述命中文本的总个数与所述未命中文本的总个数之间的比值。
4.根据权利要求1-3任一所述的方法,其特征在于,从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:
基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因。
5.根据权利要求4所述的方法,其特征在于,基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:
根据所述目标文本中的各词语构建图模型;
根据所述图模型,计算所述目标文本中各词语的权重;
将所述目标文本中权重最大的预设个数的词语作为候选词语,在所述命中文本中对所述候选词语进行标记;
若标记的所述候选词语在所述命中文本中相邻,则根据各所述候选词语在所述命中文本中出现的先后顺序对所述候选词语进行组合,将组合结果作为所述预设关键词对应的原因。
6.根据权利要求5所述的方法,其特征在于,根据所述目标文本中的各词语构建图模型的步骤具体包括:
将所述目标文本中的词语作为所述图模型的节点;
使用共现关系构造任意两个所述节点之间的边。
CN201811161071.4A 2018-09-30 2018-09-30 一种基于动态停词的原因挖掘方法 Pending CN109492078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811161071.4A CN109492078A (zh) 2018-09-30 2018-09-30 一种基于动态停词的原因挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811161071.4A CN109492078A (zh) 2018-09-30 2018-09-30 一种基于动态停词的原因挖掘方法

Publications (1)

Publication Number Publication Date
CN109492078A true CN109492078A (zh) 2019-03-19

Family

ID=65689815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811161071.4A Pending CN109492078A (zh) 2018-09-30 2018-09-30 一种基于动态停词的原因挖掘方法

Country Status (1)

Country Link
CN (1) CN109492078A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567371A (zh) * 2010-12-27 2012-07-11 上海杉达学院 自动过滤停用词的方法
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN107193803A (zh) * 2017-05-26 2017-09-22 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN108549626A (zh) * 2018-03-02 2018-09-18 广东技术师范学院 一种慕课的关键词提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567371A (zh) * 2010-12-27 2012-07-11 上海杉达学院 自动过滤停用词的方法
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN107193803A (zh) * 2017-05-26 2017-09-22 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN108549626A (zh) * 2018-03-02 2018-09-18 广东技术师范学院 一种慕课的关键词提取方法

Similar Documents

Publication Publication Date Title
CN104933081B (zh) 一种搜索建议提供方法及装置
WO2021073116A1 (zh) 生成法律文书的方法、装置、设备和存储介质
US9324007B2 (en) Systems and methods for detecting and coordinating changes in lexical items
CN106570144A (zh) 推荐信息的方法和装置
CN103942189B (zh) 一种确定作品关键词的方法和设备
US20200137224A1 (en) Comprehensive log derivation using a cognitive system
CN108628906A (zh) 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN105893444A (zh) 情感分类方法及装置
KR20080073298A (ko) 입력 데이터의 워드 클러스터링 방법, 및 컴퓨터구현가능한 클러스터링 도구
JP2021504818A (ja) 基礎ナレッジ・グラフへの重ね合わせによるインコヒーレント・ノードの構造化
CN102419975B (zh) 一种基于语音识别的数据挖掘方法和系统
CN104008132B (zh) 语音地图搜索方法及系统
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN101950309A (zh) 一种面向学科领域的新专业词汇识别方法
CN103309852A (zh) 一种基于统计和规则的特定领域的合成词发现方法
CN105893414A (zh) 筛选发音词典有效词条的方法及装置
CN102073684A (zh) 搜索日志的挖掘方法和装置以及页面搜索的方法和装置
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
Karakus et al. Call center performance evaluation using big data analytics
Meladianos et al. Real-time keyword extraction from conversations
CN105760366A (zh) 针对特定领域的新词发现方法
CN107291730A (zh) 对查询词提供校正建议的方法、装置、及概率词典构建方法
CN109492078A (zh) 一种基于动态停词的原因挖掘方法
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200309

Address after: 519000 room 105-58115, No. 6, Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province (centralized office area)

Applicant after: Puqiang times (Zhuhai Hengqin) Information Technology Co.,Ltd.

Address before: 100089 Haidian District, Beijing, Yongfeng Road, North Road, South East Road, F, 2 floor.

Applicant before: PACHIRA TECHNOLOGY (BEIJING) CO.,LTD.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190319

RJ01 Rejection of invention patent application after publication