CN110767211A - 一种基于文本内容数据清洗的语音合成播报系统 - Google Patents
一种基于文本内容数据清洗的语音合成播报系统 Download PDFInfo
- Publication number
- CN110767211A CN110767211A CN201910901689.8A CN201910901689A CN110767211A CN 110767211 A CN110767211 A CN 110767211A CN 201910901689 A CN201910901689 A CN 201910901689A CN 110767211 A CN110767211 A CN 110767211A
- Authority
- CN
- China
- Prior art keywords
- text
- filtering
- information
- weight
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 25
- 238000004140 cleaning Methods 0.000 title claims abstract description 23
- 238000001914 filtration Methods 0.000 claims abstract description 70
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000033772 system development Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于文本内容数据清洗的语音合成播报系统,所述的播报系统包括:信息存储模块、信息归类模块、关键词组提取模块、权重设置模块、敏感信息过滤模块、广告软文过滤模块;进入服务端的文本数据清洗的过程是依次进行关键词组提取、权重设置、敏感信息过滤、广告软文过滤、重复文本过滤,最后将经过过滤清洗完毕的文本存储到服务器中,调用音频合成接口,将清洗完毕的文本转换为音频文件,存储在音频服务器中,当客户端发起请求时,发送该音频到客户端。
Description
技术领域
本发明涉及语音合成播报系统,具体指一种基于文本内容数据清洗的语音合成播报系统。
背景技术
随着语音合成技术的不断进步,已经出现了一些语音合成播报系统,目前现有的一些语音合成播报系统是将获取到的文本信息不做任何清洗处理直接转化为音频进行播报,未清洗的文本内容中包含了大量的广告信息、无效信息、重复信息、敏感信息,最后合成出来的音频听感效果比较差,无法很好的达到传递有效信息的用途。
发明内容
本发明目的在于提供一种基于文本内容数据清洗的语音合成播报系统,可以去除文本内容中的广告信息、重复信息、敏感信息,可以让文本信息通过音频方式得到更加有效的传递。
本发明涉及两种类型的文本信息,文本类型在进入数据库时已归类完毕,包括头条快讯类文本和短篇文章类文本,其中,头条快讯类文本:该类文本主要由多个独立的段落构成,主要针对每个段落单独进行清洗,经过分段处理的头条快讯类文本,每个段落都视为一篇独立的文本进行清洗;短篇文章类文本:该类文本主要由一篇具有完整含义或故事的内容构成,需要针对整篇文章进行清洗。
本发明的技术方案如下:
一种基于文本内容数据清洗的语音合成播报系统,所述的播报系统包括:
信息存储模块:用于存储通用信息词库、广告信息词库、敏感信息词库、热门信息词库以帮助系统辨别信息内容;
信息归类模块,用于将录入数据库的文本归类为头条快讯类文本和短篇文章类文本;
关键词组提取模块,从服务端接收到的文本中对标题和正文进行分词提取关键词组;
权重设置模块,对提取出的关键词组进行权重设置;
敏感信息过滤模块,分别过滤标题和正文中包含敏感信息的文本;
广告软文过滤模块,分别过滤标题和正文中包含广告软文信息的文本;
文本信息去重模块,分别过滤标题和正文中判定重复的文本;
进入服务端的文本数据清洗的过程是依次进行关键词组提取、权重设置、敏感信息过滤、广告软文过滤、重复文本过滤,最后将经过过滤清洗完毕的文本存储到服务器中,调用音频合成接口,将清洗完毕的文本转换为音频文件,存储在音频服务器中,当客户端发起请求时,发送该音频到客户端。
所述的热门信息词库来自互联网平台,如百度、新浪微博、腾讯、搜狐等并实时更新;而所述的通用信息词库、广告信息词库、敏感信息词库在进行系统开发时由人工添加,随着对越来越多的文本内容被清洗,信息词库不断得到充实,再经过时间的推移,人工的介入逐渐减少。其中通用信息词库主要包含常见形容词、助词、人称代词、动词等。
所述关键词组提取模块,首先需要对服务端接收到的文本信息做分词处理,处理好的分词对比通用信息词库和热门信息词库,再提取此文本的关键词组。
所述关键词组进行权重设置时需要判断关键词权重的维度,关键词权重的维度判断如下:根据关键词的词汇类型,文本中出现的次数,在热门信息词库中是否出现以及出现后的序列位置,关键词的权重越高对于文本内容是否过滤的参考价值越大,权重由高到低分为1-3级。
所述的敏感信息过滤中,将敏感词汇分为1-3级敏感度,1级敏感词组属于最高等级必须过滤的范畴,其中,
整篇敏感文本过滤包含:(1)任何权重的关键词组出现1级敏感词汇;(2)1级权重的关键词组出现任何敏感词汇;
部分段落涉及敏感词汇的过滤包含:(1)2级权重的关键词组出现非1级的敏感词汇;(2)3级权重的关键词组出现非1级的敏感词汇。
所述广告软文过滤中,通过提取的关键词组对比广告信息词库,做如下处理:
整篇广告软文文本过滤包含:(1)1级权重的关键词组出现广告词汇;(2)2级权重的关键词组50%以上出现广告词汇;
部分段落涉及广告软文的过滤包含:3级权重的关键词组出现广告词汇删除当前关键词所在的段落。
所述的重复文本过滤中做如下处理:
(1)当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组完全重复或重复度50%以上,需要过滤掉当前整篇文本;
(2)当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组重复度低于50%,当它们属于同类型的文本时,需要过滤掉整篇文本;当它们属于不同类型的文本时,不需要进行过滤。文本信息去重处理的必要性是:当发生了某件热门事件时,可能获取到的文章大部分都在讲同一件事情,如果重复地为用户提供这样的内容,会导致体验过差,另一个原因则是这篇文本内容本身是转载自其他的平台,可能会导致出现两篇一样的文本信息。
本发明的有益效果在于:
1.本发明所述的播报系统,由于对进入服务端的文本进行广告信息、重复信息、敏感信息的过滤,避免音频客户端播报广告以及敏感信息,同时避免重复播报,可以大大提升用户的使用体验。
2. 本发明在关键词组提取-权重设置-敏感信息过滤-广告软文过滤-重复文本过滤这一数据清洗过滤流程中,不仅从标题到正文的文本数据都能得到过滤和清洗,而且头条快讯类文本和短篇文章类文本两种类型的文本数据都能得到过滤清洗,数据清洗全面,从而提高音频服务器播报的质量。
附图说明
图1为本发明所述播报系统结构示意图;
图2为本发明基于文本内容数据清洗的语音合成播报系统的流程。
具体实施方式
下面结合附图对本发明作进一步的说明。
如图1-2所示的基于文本内容数据清洗的语音合成播报系统,信息存储模块:用于存储通用信息词库、广告信息词库、敏感信息词库、热门信息词库以帮助系统辨别信息内容;
信息归类模块,用于将录入数据库的文本归类为头条快讯类文本和短篇文章类文本;
关键词组提取模块,从服务端接收到的文本中对标题和正文进行分词提取关键词组;
权重设置模块,对提取出的关键词组进行权重设置;
敏感信息过滤模块,分别过滤标题和正文中包含敏感信息的文本;
广告软文过滤模块,分别过滤标题和正文中包含广告软文信息的文本;
文本信息去重模块,分别过滤标题和正文中判定重复的文本;
进入服务端的文本数据清洗的过程是依次进行关键词组提取、权重设置、敏感信息过滤、广告软文过滤、重复文本过滤,最后将经过过滤清洗完毕的文本存储到服务器中,调用音频合成接口,将清洗完毕的文本转换为音频文件,存储在音频服务器中,当客户端发起请求时,发送该音频到客户端。
所述的热门信息词库来自互联网平台,如百度、新浪微博、腾讯、搜狐等并实时更新;而所述的通用信息词库、广告信息词库、敏感信息词库在进行系统开发时由人工添加,随着对越来越多的文本内容被清洗,信息词库不断得到充实,再经过时间的推移,人工的介入逐渐减少。其中通用信息词库主要包含常见形容词、助词、人称代词、动词等。
所述关键词组提取模块,首先需要对服务端接收到的文本信息做分词处理,处理好的分词对比通用信息词库和热门信息词库,再提取此文本的关键词组。
所述关键词组进行权重设置时需要判断关键词权重的维度,关键词权重的维度判断如下:根据关键词的词汇类型,文本中出现的次数,在热门信息词库中是否出现以及出现后的序列位置,关键词的权重越高对于文本内容是否过滤的参考价值越大,权重由高到低分为1-3级。
所述的敏感信息过滤中,将敏感词汇分为1-3级敏感度,1级敏感词组属于最高等级必须过滤的范畴,其中,
整篇敏感文本过滤包含:(1)任何权重的关键词组出现1级敏感词汇;(2)1级权重的关键词组出现任何敏感词汇;
部分段落涉及敏感词汇的过滤包含:(1)2级权重的关键词组出现非1级的敏感词汇;(2)3级权重的关键词组出现非1级的敏感词汇。
所述广告软文过滤中,通过提取的关键词组对比广告信息词库,做如下处理:
整篇广告软文文本过滤包含:(1)1级权重的关键词组出现广告词汇;(2)2级权重的关键词组50%以上出现广告词汇;
部分段落涉及广告软文的过滤包含:3级权重的关键词组出现广告词汇删除当前关键词所在的段落。
所述的重复文本过滤中做如下处理:
(1)当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组完全重复或重复度50%以上,需要过滤掉当前整篇文本;
(2)当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组重复度低于50%,当它们属于同类型的文本时,需要过滤掉整篇文本;当它们属于不同类型的文本时,不需要进行过滤。文本信息去重处理的必要性是:当发生了某件热门事件时,可能获取到的文章大部分都在讲同一件事情,如果重复地为用户提供这样的内容,会导致体验过差,另一个原因则是这篇文本内容本身是转载自其他的平台,可能会导致出现两篇一样的文本信息。
本发明所述的基于文本内容数据清洗的语音合成播报系统的流程包括以下步骤:
步骤一,服务端接收到原始文本信息,并将其存储到数据库中;
步骤二,通过标题对文本信息进行初步过滤,主要针对标题含有敏感信息和整篇文本均为广告软件的情况:
(1)对文本信息的标题做分词处理,提取标题关键词组并计算权重;
(2)将提取后的关键词组对比敏感信息词库,判断标题中是否包含敏感词汇,如果包含则过滤掉该文本;
(3)将提取后的关键词组对比广告软文词库,初步过滤掉广告软文;
步骤三,判断文本信息是头条快讯类文本还是短篇文章类文本;
(1)头条快讯类文章去重处理:通过正则表达式将文本分段,对每段文本进行分词提取关键词组并计算权重,将关键词组与已存在的头条快讯类文本对比进行去重;
(2)短篇文章类文本去重处理:首先判断标题是否重复,标题重复则过滤掉整篇文章,若标题未重复则提取文本信息的正文进行分词处理,然后提取关键词组,对比已存在的短篇文章类文本进行去重处理;
步骤四,过滤正文中的广告内容,正文已提取的关键词组对比广告软文词库,判断正文中是否有广告内容:如果整篇文章都为广告软文,则过滤掉整篇文章,如果是某些段落包含广告软文,则过滤掉文章中的这些段落;
步骤五,过滤正文中的敏感信息,正文已提取的关键词组对比敏感词库,判断正文中是否存在敏感信息,如果有则按照规则过滤整篇文章或某些段落;
步骤六,将清洗完毕的文本存储到服务器中,调用音频合成接口,将清洗完毕的文本转换为音频文件,存储在音频服务器中,当客户端发起请求时,发送该音频到客户端。
本发明所涉及的文本内容数据清洗是一种自我学习的系统,最早期需要人工添加各种基础信息词库:通用信息词库、广告信息词库、敏感信息词库帮助系统辨别信息内容,随着对越来越多的文本内容进行清洗,它会不断的充实这些词库,再经过一段时间的推移,人工的介入逐渐减少,它对于文本信息的判断会越来越准确。
本发明在关键词组提取-权重设置-敏感信息过滤-广告软文过滤-重复文本过滤这一数据清洗过滤流程中,不仅从标题到正文的文本数据都能得到过滤和清洗,而且头条快讯类文本和短篇文章类文本两种类型的文本数据都能得到过滤清洗,数据清洗全面,从而提高音频服务器播报的质量。
应理解,上述实施案例是提供给本领域的普通技术人员来实现或使用本发明的,本领域的普通技术人员可在不脱离本发明的思想情况下,对上述实施案例做出种种修改或变化,因而本发明的保护范围并不被上述实施所限,而应该是符合权利要求书提到的创新型特征的最大范围。
Claims (7)
1.一种基于文本内容数据清洗的语音合成播报系统,其特征在于,所述的播报系统包括:
信息存储模块:用于存储通用信息词库、广告信息词库、敏感信息词库、热门信息词库以帮助系统辨别信息内容;
信息归类模块,用于将录入数据库的文本归类为头条快讯类文本和短篇文章类文本;
关键词组提取模块,从服务端接收到的文本中对标题和正文进行分词提取关键词组;
权重设置模块,对提取出的关键词组进行权重设置;
敏感信息过滤模块,分别过滤标题和正文中包含敏感信息的文本;
广告软文过滤模块,分别过滤标题和正文中包含广告软文信息的文本;
文本信息去重模块,分别过滤标题和正文中判定重复的文本;
进入服务端的文本数据清洗的过程是依次进行关键词组提取、权重设置、敏感信息过滤、广告软文过滤、重复文本过滤,最后将经过过滤清洗完毕的文本存储到服务器中,调用音频合成接口,将清洗完毕的文本转换为音频文件,存储在音频服务器中,当客户端发起请求时,发送该音频到客户端。
2.如权利要求1所述的基于文本内容数据清洗的语音合成播报系统,其特征在于:所述的热门信息词库来自互联网平台,而所述的通用信息词库、广告信息词库、敏感信息词库在进行系统开发时由人工添加,随着对越来越多的文本内容被清洗,信息词库不断得到充实,再经过时间的推移,人工的介入逐渐减少。
3.如权利要求1所述的基于文本内容数据清洗的语音合成播报系统,其特征在于:所述关键词组提取模块,首先需要对服务端接收到的文本信息做分词处理,处理好的分词对比通用信息词库和热门信息词库,再提取此文本的关键词组。
4.如权利要求1所述的基于文本内容数据清洗的语音合成播报系统,其特征在于:所述关键词组进行权重设置时需要判断关键词权重的维度,关键词权重的维度判断如下:根据关键词的词汇类型,文本中出现的次数,在热门信息词库中是否出现以及出现后的序列位置,关键词的权重越高对于文本内容是否过滤的参考价值越大,权重由高到低分为1-3级。
5.如权利要求4所述的基于文本内容数据清洗的语音合成播报系统,其特征在于:所述的敏感信息过滤中,将敏感词汇分为1-3级敏感度,1级敏感词组属于最高等级必须过滤的范畴,其中,
整篇敏感文本过滤包含:(1)任何权重的关键词组出现1级敏感词汇;(2)1级权重的关键词组出现任何敏感词汇;
部分段落涉及敏感词汇的过滤包含:(1)2级权重的关键词组出现非1级的敏感词汇;(2)3级权重的关键词组出现非1级的敏感词汇。
6.如权利要求4所述的基于文本内容数据清洗的语音合成播报系统,其特征在于:所述广告软文过滤中,通过提取的关键词组对比广告信息词库,做如下处理:
整篇广告软文文本过滤包含:(1)1级权重的关键词组出现广告词汇;(2)2级权重的关键词组50%以上出现广告词汇;
部分段落涉及广告软文的过滤包含:3级权重的关键词组出现广告词汇删除当前关键词所在的段落。
7.如权利要求4所述的基于文本内容数据清洗的语音合成播报系统,其特征在于:所述的重复文本过滤做如下处理:
(1)当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组完全重复或重复度50%以上,需要过滤掉当前整篇文本;
(2)当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组重复度低于50%,当它们属于同类型的文本时,需要过滤掉整篇文本;当它们属于不同类型的文本时,不需要进行过滤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901689.8A CN110767211B (zh) | 2019-09-23 | 2019-09-23 | 一种基于文本内容数据清洗的语音合成播报系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901689.8A CN110767211B (zh) | 2019-09-23 | 2019-09-23 | 一种基于文本内容数据清洗的语音合成播报系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110767211A true CN110767211A (zh) | 2020-02-07 |
CN110767211B CN110767211B (zh) | 2022-02-18 |
Family
ID=69330702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910901689.8A Expired - Fee Related CN110767211B (zh) | 2019-09-23 | 2019-09-23 | 一种基于文本内容数据清洗的语音合成播报系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110767211B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612414A (zh) * | 2020-04-24 | 2020-09-01 | 上海第一财经传媒有限公司 | 一种移动媒体应用管理系统 |
WO2023115890A1 (zh) * | 2021-12-22 | 2023-06-29 | 郑州云海信息技术有限公司 | 一种文本的质量清洗方法、装置及介质 |
CN117313676A (zh) * | 2023-11-29 | 2023-12-29 | 苏州元脑智能科技有限公司 | 一种文本数据清洗方法、系统、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184188A (zh) * | 2011-04-15 | 2011-09-14 | 百度在线网络技术(北京)有限公司 | 一种用于确定目标文本的敏感度的方法与设备 |
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN103838710A (zh) * | 2012-11-22 | 2014-06-04 | 中国移动通信集团公司 | 基于关键词权值的文本过滤方法与系统 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN107045524A (zh) * | 2016-12-30 | 2017-08-15 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
CN109657134A (zh) * | 2018-11-06 | 2019-04-19 | 北京奇虎科技有限公司 | 一种数据过滤方法及装置 |
-
2019
- 2019-09-23 CN CN201910901689.8A patent/CN110767211B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184188A (zh) * | 2011-04-15 | 2011-09-14 | 百度在线网络技术(北京)有限公司 | 一种用于确定目标文本的敏感度的方法与设备 |
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN103838710A (zh) * | 2012-11-22 | 2014-06-04 | 中国移动通信集团公司 | 基于关键词权值的文本过滤方法与系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
CN107045524A (zh) * | 2016-12-30 | 2017-08-15 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
CN109657134A (zh) * | 2018-11-06 | 2019-04-19 | 北京奇虎科技有限公司 | 一种数据过滤方法及装置 |
Non-Patent Citations (2)
Title |
---|
李文波等: "基于核方法的敏感信息过滤的研究", 《通信学报》 * |
高丽平等: "基于词汇扩展的垃圾邮件过滤方法", 《中原工学院学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612414A (zh) * | 2020-04-24 | 2020-09-01 | 上海第一财经传媒有限公司 | 一种移动媒体应用管理系统 |
CN111612414B (zh) * | 2020-04-24 | 2024-04-02 | 上海第一财经传媒有限公司 | 一种移动媒体应用管理系统 |
WO2023115890A1 (zh) * | 2021-12-22 | 2023-06-29 | 郑州云海信息技术有限公司 | 一种文本的质量清洗方法、装置及介质 |
CN117313676A (zh) * | 2023-11-29 | 2023-12-29 | 苏州元脑智能科技有限公司 | 一种文本数据清洗方法、系统、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110767211B (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110767211B (zh) | 一种基于文本内容数据清洗的语音合成播报系统 | |
Windasari et al. | Sentiment analysis on Twitter posts: An analysis of positive or negative opinion on GoJek | |
KR101737887B1 (ko) | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 | |
Liu et al. | Why is “SXSW” trending? Exploring multiple text sources for twitter topic summarization | |
CN109190017B (zh) | 热点信息的确定方法、装置、服务器及存储介质 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
CN108536667B (zh) | 中文文本识别方法及装置 | |
Liu et al. | Automatic keyword extraction for the meeting corpus using supervised approach and bigram expansion | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
CN108563667A (zh) | 基于新词识别的热门话题采集系统及其方法 | |
CN111680509A (zh) | 基于共现语言网络的文本关键词自动抽取方法和装置 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN107526841A (zh) | 一种基于Web的藏文文本自动摘要生成方法 | |
CN109783623A (zh) | 一种真实场景下用户与客服对话的数据分析方法 | |
CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
CN106570120A (zh) | 一种改进的关键词优化实现搜索引擎优化技术 | |
CN115964495A (zh) | 一种新闻类事件脉络梳理方法及系统 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
CN114138936A (zh) | 一种文本摘要的生成方法、装置、电子设备和存储介质 | |
CN114997161A (zh) | 关键词抽取方法、装置、电子设备与存储介质 | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization | |
CN110069703B (zh) | 一种基于特征增强的微博话题检测方法 | |
Sahmoudi et al. | Towards a linguistic patterns for arabic keyphrases extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310012 room a1002, 10th floor, building 3, No. 88, Longyuan Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Zhejiang BanZhi Technology Co.,Ltd. Address before: 310012 block a, building 3, Chuangxin Times Square, Yuhang District, Hangzhou City, Zhejiang Province Applicant before: ZHEJIANG CONGTAI NETWORK TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220218 |