CN109492078A - 一种基于动态停词的原因挖掘方法 - Google Patents
一种基于动态停词的原因挖掘方法 Download PDFInfo
- Publication number
- CN109492078A CN109492078A CN201811161071.4A CN201811161071A CN109492078A CN 109492078 A CN109492078 A CN 109492078A CN 201811161071 A CN201811161071 A CN 201811161071A CN 109492078 A CN109492078 A CN 109492078A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- hit
- document frequency
- reason
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于动态停词的原因挖掘方法,所述方法包括:将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。本发明提高了原因挖掘的准确性和效率。
Description
技术领域
本发明属于语音分析技术领域,更具体地,涉及一种基于动态停词的原因挖掘方法。
背景技术
在客户通过语音进行业务咨询或客服通过语音向客户进行业务推荐的语音通话中,含有很多具有业务价值的信息,如“退保”、“注销”或“投诉”的具体原因,因此从海里语音中挖掘出用户行为的具体原因对业务质量的提升具有重要意义。
现有技术中,对语音中原因的挖掘一般通过人工听语音后,对语音进行分析,然后记录语音中的原因。由于人的听力能力有限,很容易出现漏听和错听的情况,语音播放设备的质量也会影响到语音播放的效果。且人的听力易受到语音播放环境的干扰。当语音的量很大时,通过人工挖掘语音中的原因,需要花费大量的时间和人力。
综上所述,现有方法中通过人工挖掘语音中的原因费时费力,且容易出错。
发明内容
为克服上述现有通过人工挖掘语音中的原因费时费力,且容易出错的问题或者至少部分地解决上述问题,本发明提供一种基于动态停词的原因挖掘方法。
根据本发明的一方面,提供一种基于动态停词的原因挖掘方法,包括:
将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;
计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;
从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。
本发明提供一种基于动态停词的原因挖掘方法,该方法通过将语音转换为文本后,根据预设关键词对文本进行筛选获取命中文本,再根据命中文本中各词语在命中文本和非命中文本中的文档频率,确定命中文本中的停用词,使用过滤掉停用词后的命中文本进行原因挖掘,从而将命中文本中的通用词语去掉,提高了原因挖掘的准确性和效率。
附图说明
图1为本发明实施例提供的原因挖掘整体流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的一个实施例中提供一种基于动态停词的原因挖掘方法,图1为本发明实施例提供的原因挖掘方法整体流程示意图,该方法包括:S101,将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;
其中,待挖掘语音集合为需要进行原因挖掘的语音的集合。原始文本为直接将待挖掘语音转换成的文本。将每一通待挖掘语音转换为一个原始文本。本实施例不限于将待挖掘语音转换为原始文本的方法。判断各原始文本中是否包含预设关键词。预设关键词为预先设定的关键词,如“投诉”、“注销”或“退保”。将包含预设关键词的原始文本作为命中文本,将未包含预设关键词的文本作为未命中文本。
S102,计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;
其中,词语的文档频率是指包含该词语的文档的个数。停用词是指不用于原因挖掘的词语。将命中文本中各词语在命中文本中的第一文档频率和在未命中文本中的第二文档频率分别与相应的预设阈值进行比较,根据比较结果,确定命中文本中的各词语是否为停用词。
S103,从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。
具体地,将命中文本中的停用词过滤掉,即去掉。将去掉停用词后的命中文本作为目标文本,从目标文本中挖掘出预算关键词对应的原因。本实施例不限于从目标文本中挖掘原因的方法。
本实施例通过将语音转换为文本后,根据预设关键词对文本进行筛选获取命中文本,再根据命中文本中各词语在命中文本和非命中文本中的文档频率,确定命中文本中的停用词,使用过滤掉停用词后的命中文本进行原因挖掘,从而将命中文本中的通用词语去掉,提高了原因挖掘的准确性和效率。
在上述实施例的基础上,本实施例中计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率的步骤具体包括:对于所述命中文本中的任一词语,统计包含该词语的所述命中文本的第一个数和包含该词语的所述未命中文本的第二个数,将所述第一个数作为该词语在所有所述命中文本中的第一文档频率,将所述第二个数作为该词语在所有所述未命中文本中的第二文档频率。
在上述实施例的基础上,本实施例中根据所述第一文档频率和所述第二文档频率确定停用词的步骤具体包括:对于所述命中文本中的任一词语,若该词语对应的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值,则将该词语作为停用词;其中,所述第一预设阈值与所述第二预设阈值之间的比值等于所述命中文本的总个数与所述未命中文本的总个数之间的比值。
具体地,当词语的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值时,说明较多的命中文本中包含该词语时,较多的未命中文本也包含该词语,此时说明该词语为通用的词语,将该词语作为停用词,从命中文本中过滤掉,不用于原因挖掘。
在上述各实施例的基础上,本实施例中从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因。
其中,TextRank算法基于PageRank算法,用于为文本生成关键字或摘要。通过将文本分割成若干组成单元,如单词或句子,并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用文档本身的信息即可实现关键词或文摘的提取。
在上述实施例的基础上,本实施例中基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:根据所述目标文本中的各词语构建图模型;根据所述图模型,计算所述目标文本中各词语的权重;将所述目标文本中权重最大的预设个数的词语作为候选词语,在所述命中文本中对所述候选词语进行标记;若标记的所述候选词语在所述命中文本中相邻,则根据各所述候选词语在所述命中文本中出现的先后顺序对所述候选词语进行组合,将组合结果作为所述预设关键词对应的原因。
具体额,先将目标文本按照完整的句子进行分割,再将每个句子进行分词。使用目标文本中的各词语构建图模型。根据所述图模型,计算目标文本中各词语的权重。计算公式为:
其中,Vi为图模型中第i个节点,WS(Vi)为第i个节点对应的词语的权重,Vj为图模型中第j个节点,WS(Vj)为第j个节点对应的词语的权重,d为阻尼系数,取值范围为0到1,表示图模型中从某一特定节点指向其他节点的概率,一般取值为0.85,In(Vi)为指向节点Vi的节点集合,Out(Vi)为节点Vi指向的节点集合,wji为节点Vi与节点Vj之间边的权重,wjk为节点Vj与节点Vk之间边的权重。对各节点对应的词语的权重进行排序,从而获取权重最大的预设个数的词语,将其作为候选词语。在命中文本中对候选词语进行标记,若标记的候选词语在命中文本中相邻,则按照各候选词语在命中文本中出现的先后顺序对各候选词进行排序后组合,将组合结构作为预设关键词对应的原因。
在上述实施例的基础上,本实施例中根据所述目标文本中的各词语构建图模型的步骤具体包括:将所述目标文本中的词语作为所述图模型的节点;使用共现关系构造任意两个所述节点之间的边。
具体地,图模型为一个有向有权图G=(V,E),其中,V为节点集合,由目标文本中的各词语组成。E为边集合。使用共现关系构造任意两个所述节点之间的边。具体为当两个节点对应的词语在长度为预设长度的窗口中共现,则两个节点之间存在边。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于动态停词的原因挖掘方法,其特征在于,包括:
将待挖掘语音集合中的待挖掘语音分别转换为原始文本,将包含预设关键词的所述原始文本作为命中文本,将未包含所述预设关键词的所述原始文本作为未命中文本;
计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率,根据所述第一文档频率和所述第二文档频率确定停用词;
从所述命中文本中过滤掉所述停用词,将过滤掉停用词后的所述命中文本作为目标文本,从所述目标文本中挖掘所述预设关键词对应的原因。
2.根据权利要求1所述的方法,其特征在于,计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率的步骤具体包括:
对于所述命中文本中的任一词语,统计包含该词语的所述命中文本的第一个数和包含该词语的所述未命中文本的第二个数,将所述第一个数作为该词语在所有所述命中文本中的第一文档频率,将所述第二个数作为该词语在所有所述未命中文本中的第二文档频率。
3.根据权利要求1所述的方法,其特征在于,根据所述第一文档频率和所述第二文档频率确定停用词的步骤具体包括:
对于所述命中文本中的任一词语,若该词语对应的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值,则将该词语作为停用词;其中,所述第一预设阈值与所述第二预设阈值之间的比值等于所述命中文本的总个数与所述未命中文本的总个数之间的比值。
4.根据权利要求1-3任一所述的方法,其特征在于,从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:
基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因。
5.根据权利要求4所述的方法,其特征在于,基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括:
根据所述目标文本中的各词语构建图模型;
根据所述图模型,计算所述目标文本中各词语的权重;
将所述目标文本中权重最大的预设个数的词语作为候选词语,在所述命中文本中对所述候选词语进行标记;
若标记的所述候选词语在所述命中文本中相邻,则根据各所述候选词语在所述命中文本中出现的先后顺序对所述候选词语进行组合,将组合结果作为所述预设关键词对应的原因。
6.根据权利要求5所述的方法,其特征在于,根据所述目标文本中的各词语构建图模型的步骤具体包括:
将所述目标文本中的词语作为所述图模型的节点;
使用共现关系构造任意两个所述节点之间的边。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811161071.4A CN109492078A (zh) | 2018-09-30 | 2018-09-30 | 一种基于动态停词的原因挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811161071.4A CN109492078A (zh) | 2018-09-30 | 2018-09-30 | 一种基于动态停词的原因挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492078A true CN109492078A (zh) | 2019-03-19 |
Family
ID=65689815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811161071.4A Pending CN109492078A (zh) | 2018-09-30 | 2018-09-30 | 一种基于动态停词的原因挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492078A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
CN103123618A (zh) * | 2011-11-21 | 2013-05-29 | 北京新媒传信科技有限公司 | 文本相似度获取方法和装置 |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN108549626A (zh) * | 2018-03-02 | 2018-09-18 | 广东技术师范学院 | 一种慕课的关键词提取方法 |
-
2018
- 2018-09-30 CN CN201811161071.4A patent/CN109492078A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
CN103123618A (zh) * | 2011-11-21 | 2013-05-29 | 北京新媒传信科技有限公司 | 文本相似度获取方法和装置 |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN108549626A (zh) * | 2018-03-02 | 2018-09-18 | 广东技术师范学院 | 一种慕课的关键词提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933081B (zh) | 一种搜索建议提供方法及装置 | |
WO2021073116A1 (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
US9324007B2 (en) | Systems and methods for detecting and coordinating changes in lexical items | |
CN106570144A (zh) | 推荐信息的方法和装置 | |
CN103942189B (zh) | 一种确定作品关键词的方法和设备 | |
US20200137224A1 (en) | Comprehensive log derivation using a cognitive system | |
CN108628906A (zh) | 短文本模板挖掘方法、装置、电子设备和可读存储介质 | |
CN105893444A (zh) | 情感分类方法及装置 | |
KR20080073298A (ko) | 입력 데이터의 워드 클러스터링 방법, 및 컴퓨터구현가능한 클러스터링 도구 | |
JP2021504818A (ja) | 基礎ナレッジ・グラフへの重ね合わせによるインコヒーレント・ノードの構造化 | |
CN102419975B (zh) | 一种基于语音识别的数据挖掘方法和系统 | |
CN104008132B (zh) | 语音地图搜索方法及系统 | |
CN102662952A (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN101950309A (zh) | 一种面向学科领域的新专业词汇识别方法 | |
CN103309852A (zh) | 一种基于统计和规则的特定领域的合成词发现方法 | |
CN105893414A (zh) | 筛选发音词典有效词条的方法及装置 | |
CN102073684A (zh) | 搜索日志的挖掘方法和装置以及页面搜索的方法和装置 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
Karakus et al. | Call center performance evaluation using big data analytics | |
Meladianos et al. | Real-time keyword extraction from conversations | |
CN105760366A (zh) | 针对特定领域的新词发现方法 | |
CN107291730A (zh) | 对查询词提供校正建议的方法、装置、及概率词典构建方法 | |
CN109492078A (zh) | 一种基于动态停词的原因挖掘方法 | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200309 Address after: 519000 room 105-58115, No. 6, Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province (centralized office area) Applicant after: Puqiang times (Zhuhai Hengqin) Information Technology Co.,Ltd. Address before: 100089 Haidian District, Beijing, Yongfeng Road, North Road, South East Road, F, 2 floor. Applicant before: PACHIRA TECHNOLOGY (BEIJING) CO.,LTD. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |