CN111625614A - 直播平台语音收集方法、系统及存储介质 - Google Patents
直播平台语音收集方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111625614A CN111625614A CN202010066065.1A CN202010066065A CN111625614A CN 111625614 A CN111625614 A CN 111625614A CN 202010066065 A CN202010066065 A CN 202010066065A CN 111625614 A CN111625614 A CN 111625614A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- voice
- text file
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 31
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种直播平台语音收集方法、系统及存储介质,该语音收集方法包括如下步骤:S1:一种直播平台语音收集方法,其包括如下步骤:S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。本发明能够能够对用户产生的语音数据进行筛选、收集和排序、从而实现对用户更精准的智能服务推送。
Description
技术领域
本发明属于互联网直播技术领域,具体来说涉及一种直播平台语音文件收集方法,以及用于实现该方法的直播平台数据系统及存储介质。
背景技术
网络直播是一种新兴的网络社交方式。主播利用摄像头等工具在直播平台上进行视频直播。现有的直播平台无法对用户的操作数据进行收集。因而无法针对各个用户的个性进行针对性的服务优化。因此,如何开发出一种新型的直播平台语音文件收集方法,以克服上述问题,是本领域技术人员需要研究的方向。
发明内容
本发明的目的是提供一种直播平台语音收集方法,能够对用户在直播平台上产生的数据进行收集和排序、掌握用户的服务取向和在线时间,实现对用户的精准服务推送。
其采用的技术方案如下:
一种直播平台语音收集方法,其包括如下步骤:S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。
优选的是,上述直播平台语音收集方法中,还包括步骤S6:基于S5所得三次数据生成数据报表,所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。
更优选的是,上述直播平台语音收集方法中,还包括步骤S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。
为实现上述直播平台信息审核方法,本发明还公开了一种直播平台语音收集系统,其包括:收集模块,一次筛选模块,转化模块,存储模块,二次筛选模块,排序模块、制表模块和制图模块;所述收集模块用于收集用户在直播平台上操作产生的原始语音文件;所述一次筛选模块用于读取收集模块、筛除原始语音文件中的破损文件;所述转化模块用于读取一次筛选模块、将未破损的语音文件转化为文本文件;所述存储模块用于将转化模块生成的文本文件按对应用户ID进行存储;所述二次筛选模块用于对存储模块进行清洗、筛除含有乱码的文本文件;所述排序模块用于对未含乱码的文本文件进行关键词抓取、并依据关键词进行排序;所述制表模块用于基于排序模块的排序结果生成数据报表;所述制图模块用于基于所述数据报表生成数据谱图。
为实现上述直播平台信息审核方法,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质中存有计算机程序,所述计算机程序在被执行时实现上述直播平台数据。
通过采用上述技术方案:首先对语音数据进行收集及第一次筛选,筛除无效的破损文件。随后通过将语音数据转化为文本数据,针对文本数据实现对关键词的抓取,并根据关键词的抓取结果实现排序。同时,通过统计语音数据的次数和发生时间、生成相应的数据列表和数据谱图。由此,本发明能够收集用户语音的频次和时间、实现针对关键词排序,对用户服务实现数据积累,平台工作人员通过数据分析可以直观的掌握用户的服务取向和在线时间,从而实现对用户更精准的智能服务推送。
附图说明
上面结合附图与具体实施方式对本发明作进一步详细的说明:
图1为本发明实施例1的流程示意图;
图2为本发明实施例1的结构示意图;
各附图标记与部件名称对应关系如上:
1、收集模块;2、一次筛选模块;3、转化模块;4、存储模块;5、二次筛选模块;6、排序模块;7、制表模块;8、制图模块。
具体实施方式
为了更清楚地说明本发明的技术方案,上面将结合各个实施例作进一步描述。
一种直播平台语音收集系统,其包括:收集模块1,一次筛选模块2,转化模块3,存储模块4,二次筛选模块5,排序模块6、制表模块7和制图模块8。其中,所述收集模块1用于收集用户在直播平台上操作产生的原始语音文件;所述一次筛选模块2用于读取收集模块1、筛除原始语音文件中的破损文件;所述转化模块3用于读取一次筛选模块2、将未破损的语音文件转化为文本文件;所述存储模块4用于将转化模块3生成的文本文件按对应用户ID进行存储;所述二次筛选模块5用于对存储模块4进行清洗、筛除含有乱码的文本文件;所述排序模块6用于对未含乱码的文本文件进行关键词抓取、并依据关键词进行排序;所述制表模块7用于基于排序模块6的排序结果生成数据报表;所述制图模块8用于基于所述数据报表生成数据谱图。
其工作过程如下:
S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;
S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;
S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;
S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;
S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。
S6:基于S5所得三次数据生成数据报表,所述数据报表中包括用于显示语音频次的横向栏和用于显示语音所处时间段的纵向栏;
S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。
实践中,平台工作人员通过将语音数据转化为文本数据,针对文本数据实现对关键词的抓取,并根据关键词的抓取结果实现排序。同时,通过统计语音数据的次数和发生时间、生成相应的数据列表和数据谱图。
以上所述,仅为本发明的具体实施例,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (5)
1.一种直播平台语音收集方法,其特征在于,包括如下步骤:
S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;
S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;
S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;
S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;
S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。
2.如权利要求1所述直播平台语音收集方法,其特征在于,还包括步骤S6:基于S5所得三次数据生成数据报表,所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。
3.如权利要求1所述直播平台语音收集方法,其特征在于,还包括步骤S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。
4.一种直播平台语音收集系统,其特征在于,包括:收集模块(1),一次筛选模块(2),转化模块(3),存储模块(4),二次筛选模块(5),排序模块(6)、制表模块(7)和制图模块(8);
所述收集模块(1)用于收集用户在直播平台上操作产生的原始语音文件;所述一次筛选模块(2)用于读取收集模块(1)、筛除原始语音文件中的破损文件;所述转化模块(3)用于读取一次筛选模块(2)、将未破损的语音文件转化为文本文件;所述存储模块(4)用于将转化模块(3)生成的文本文件按对应用户ID进行存储;所述二次筛选模块(5)用于对存储模块(4)进行清洗、筛除含有乱码的文本文件;所述排序模块(6)用于对未含乱码的文本文件进行关键词抓取、并依据关键词进行排序;所述制表模块(7)用于基于排序模块(6)的排序结果生成数据报表;所述制图模块(8)用于基于所述数据报表生成数据谱图。
5.一种计算机可读存储介质,所述计算机可读存储介质中存有计算机程序,其特征在于:所述计算机程序在被执行时实现如权利要求1-3任一项所述直播平台信息审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010066065.1A CN111625614A (zh) | 2020-01-20 | 2020-01-20 | 直播平台语音收集方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010066065.1A CN111625614A (zh) | 2020-01-20 | 2020-01-20 | 直播平台语音收集方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111625614A true CN111625614A (zh) | 2020-09-04 |
Family
ID=72270801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010066065.1A Pending CN111625614A (zh) | 2020-01-20 | 2020-01-20 | 直播平台语音收集方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625614A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456344A (zh) * | 2010-10-22 | 2012-05-16 | 中国电信股份有限公司 | 基于语音识别技术分析客户行为特征的系统及方法 |
CN106897290A (zh) * | 2015-12-17 | 2017-06-27 | 中国移动通信集团上海有限公司 | 一种建立关键词模型的方法及装置 |
CN107391929A (zh) * | 2017-07-21 | 2017-11-24 | 北京粒创科技有限公司 | 一种基于用户行为数据的虚拟平台系统 |
CN110222045A (zh) * | 2019-04-23 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种数据报表获取方法、装置及计算机设备、存储介质 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110517689A (zh) * | 2019-08-28 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置及存储介质 |
-
2020
- 2020-01-20 CN CN202010066065.1A patent/CN111625614A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456344A (zh) * | 2010-10-22 | 2012-05-16 | 中国电信股份有限公司 | 基于语音识别技术分析客户行为特征的系统及方法 |
CN106897290A (zh) * | 2015-12-17 | 2017-06-27 | 中国移动通信集团上海有限公司 | 一种建立关键词模型的方法及装置 |
CN107391929A (zh) * | 2017-07-21 | 2017-11-24 | 北京粒创科技有限公司 | 一种基于用户行为数据的虚拟平台系统 |
CN110222045A (zh) * | 2019-04-23 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种数据报表获取方法、装置及计算机设备、存储介质 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110517689A (zh) * | 2019-08-28 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103246735B (zh) | 一种异常数据处理方法及系统 | |
CN106933724B (zh) | 一种分布式信息追踪系统、信息处理方法及装置 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN103853838B (zh) | 一种数据处理方法和装置 | |
CA2365705A1 (en) | A system for collecting specific information from several sources of unstructured digitized data | |
CN105718587A (zh) | 一种网络内容资源评估方法及评估系统 | |
CN106357635A (zh) | 一种基于同源框架的漏洞对比分析方法 | |
CN103995807A (zh) | 一种基于Web架构下海量数据查询和二次处理的方法 | |
CN109783452A (zh) | 一种基于规则化的建设项目文件收集归档方法及系统 | |
KR101500294B1 (ko) | 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 | |
CN110543584B (zh) | 一种建立人脸索引的方法、装置、处理服务器及存储介质 | |
CN112364267A (zh) | 前端数据的采集方法及装置 | |
CN116506196A (zh) | 一种基于大数据的通信检测预警平台 | |
CN117078213B (zh) | 基于大数据整合分析的建筑工程管理平台 | |
CN114116872A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN106294873A (zh) | 一种机器数据的分析装置及分析方法 | |
CN111625614A (zh) | 直播平台语音收集方法、系统及存储介质 | |
CN107465519B (zh) | 一种基于即时通讯应用的数据管理系统 | |
CN103440333A (zh) | 一种数据处理方法及装置 | |
CN112418945B (zh) | 一种基于企业服务门户的经济热点发现分析系统及方法 | |
KR20130068633A (ko) | 데이터 시각화 장치 및 방법 | |
Kuhrmann et al. | A mapping study on method engineering: first results | |
CN104363305A (zh) | 一种基于移动终端的社区管理与服务系统 | |
CN103150310A (zh) | 一种提取热点信息的方法及装置 | |
CN113626673A (zh) | 一种页面数据采集方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200904 |
|
WD01 | Invention patent application deemed withdrawn after publication |