CN113948087A - 一种语音标签判定方法、系统、存储介质及电子设备 - Google Patents

一种语音标签判定方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN113948087A
CN113948087A CN202111068472.7A CN202111068472A CN113948087A CN 113948087 A CN113948087 A CN 113948087A CN 202111068472 A CN202111068472 A CN 202111068472A CN 113948087 A CN113948087 A CN 113948087A
Authority
CN
China
Prior art keywords
vocabulary
open source
processing
word
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111068472.7A
Other languages
English (en)
Other versions
CN113948087B (zh
Inventor
邵历
齐路
唐会军
梁堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202111068472.7A priority Critical patent/CN113948087B/zh
Publication of CN113948087A publication Critical patent/CN113948087A/zh
Application granted granted Critical
Publication of CN113948087B publication Critical patent/CN113948087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及音频识别领域,尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。该方法包括:获取开源词汇,形成开源词汇集;对相关场景下的文本进行切词处理,得到切词集;获取音频文件,对所述音频文件进行处理,得到高频词汇集;获取预设名单,对预设名单进行处理得到相关词汇集;对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;根据所述词汇表对语音内容进行标签处理。本发明可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。

Description

一种语音标签判定方法、系统、存储介质及电子设备
技术领域
本发明涉及音频识别领域,尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。
背景技术
近年来,随着互联网的快速发展以及短视频和直播领域的兴起,多媒体数据爆炸性的增长,其中语音内容在人们的生活,交流,娱乐中扮演者越来越重要的角色,在这庞大的语音内容下面潜伏着的巨大内容风险,也越来越为政府和人们所关注。
现阶段,语音内容的内容审核任务主要采用的是ASR+nlp的解决方案;通过ASR将音频内容转译成文本内容,而后利用nlp和名单,对文本内容给出相应的风险标签。其中词表作为ASR和nlp的基础,扮演着至关重要的作用,不仅直接关系到ASR转译结果的字准确率,还影响着nlp和名单给出风险标签的准确性。但现有技术中对于词表的组成过于单一,导致标签给定存在差异。
发明内容
本发明所要解决的技术问题是提供一种语音标签判定方法、系统、存储介质及电子设备。
本发明解决上述技术问题的技术方案如下:一种语音标签判定方法,包括:
获取开源词汇,形成开源词汇集;
对相关场景下的文本进行切词处理,得到切词集;
获取音频文件,对所述音频文件进行处理,得到高频词汇集;
获取预设名单,对预设名单进行处理得到相关词汇集;
对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
根据所述词汇表对语音内容进行标签处理。
本发明的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,获取开源词汇,形成开源词汇集具体为:
通过开源数据集获取开源词汇,形成开源词汇集。
进一步,对相关场景下的文本进行切词处理,得到切词集具体为:
通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
进一步,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
进一步,所述预设名单为:包含违禁词的词汇名单。
本发明解决上述技术问题的另一种技术方案如下:一种语音标签判定系统,包括:
开源词汇模块,用于获取开源词汇,形成开源词汇集;
切词模块,用于对相关场景下的文本进行切词处理,得到切词集;
高频词模块,用于获取音频文件,对所述音频文件进行处理,得到高频词汇集;
相关词模块,用于获取预设名单,对预设名单进行处理得到相关词汇集;
并集模块,用于对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
处理模块,用于根据所述词汇表对语音内容进行标签处理。
本发明的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
进一步,获取开源词汇,形成开源词汇集具体为:
通过开源数据集获取开源词汇,形成开源词汇集。
进一步,对相关场景下的文本进行切词处理,得到切词集具体为:
通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
进一步,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
进一步,所述预设名单为:包含违禁词的词汇名单。
本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种语音标签判定方法。
本发明的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种语音标签判定方法。
本发明的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
附图说明
图1为本发明一种语音标签判定方法实施例提供的流程示意图;
图2为本发明一种语音标签判定系统实施例提供的系统框架图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种语音标签判定方法,包括:
步骤1,获取开源词汇,形成开源词汇集;
步骤2,对相关场景下的文本进行切词处理,得到切词集;
步骤3,获取音频文件,对所述音频文件进行处理,得到高频词汇集;
步骤4,获取预设名单,对预设名单进行处理得到相关词汇集;
步骤5,对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
步骤6,根据所述词汇表对语音内容进行标签处理。
在一些可能的实施方式中,通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
需要说明的是,开源词汇集是通过互联网收集相关领域的开源词汇,即通过开源数据集进行开源词汇的获取;
切词集是通过相关场景下的文本基于多种切词方法,切词后取其交集;相关场景可以为直播场景或者游戏场景等;切词工具可以为jieba切词,HanLP等;交集的获取为:同一批文本利用不同的切词工具的不同模式进行切词,如果一个词在所有结果中均出现,即为交集,并非基于开源词汇取交集;
高频词汇集是通过:ASR转译结果进行词频统计,取高频词汇;对于词频的统计可以理解为统计的是对应词的出现频次,这里的样本是音频转译过来的文本,即ASR需要转译的真实数据,这里高频的词汇就是是对应业务场景下的高频词,即该领域经常会出现的一些词,这些词作为词表重要的一部分
相关词汇集是通过获取标签名单即预设名单里面的相关词汇,结合应用场景,ASR作为语音风控的基础服务,最终的效果是以标签的形式展现的,所以标签名单里面的词都要求包含在词表中,标签中不仅有违禁词,还有短语等固定话术;
词汇表是将前面几个步骤获取的词汇取并集。当词汇表形成后,在不同场景中转换的语音文本可以对照词汇表进行敏感词或非法词等内容的标签判定。
实施例1,通过ASR转译结果获取部分相关场景下的高频词汇现有样本A,为ASR对线上数据的转译结果,如表1:
表1样本A
有几个 法师 上单 场 上 只有
嗯 嗯 嗯 太 真实 了 98k 我 我 就 去 了
小哥哥 教教 怎么 这样 我 还是 要 听 怎么 唱 啊 我 不 太 会
一张 狼人牌 我 离线 一 张 金水 牌 我 一直 在线 就 这么 聊 过 了 嗯 三狼
通过对样本A的词频统计,可以获得如下这些游戏相关场景的高频词汇,这类词汇传统切词方法很难将根据文本信息切词切出,ASR转译的时候其实是结合部分声学特征,如表2所示,通过表2进行标签处理。
表2特征
法师
上单
98K
狼人牌
优选地,在上述任意实施例中,获取开源词汇,形成开源词汇集具体为:
通过开源数据集获取开源词汇,形成开源词汇集。
优选地,在上述任意实施例中,对相关场景下的文本进行切词处理,得到切词集具体为:
通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
需要说明的是,切词工具可以为jieba切词,HanLP等。
优选地,在上述任意实施例中,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
优选地,在上述任意实施例中,所述预设名单为:包含违禁词的词汇名单。
如图2所示,一种语音标签判定系统,包括:
开源词汇模块100,用于获取开源词汇,形成开源词汇集;
切词模块200,用于对相关场景下的文本进行切词处理,得到切词集;
高频词模块300,用于获取音频文件,对所述音频文件进行处理,得到高频词汇集;
相关词模块400,用于获取预设名单,对预设名单进行处理得到相关词汇集;
并集模块500,用于对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
处理模块600,用于根据所述词汇表对语音内容进行标签处理。
在一些可能的实施方式中,通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
优选地,在上述任意实施例中,获取开源词汇,形成开源词汇集具体为:
通过开源数据集获取开源词汇,形成开源词汇集。
优选地,在上述任意实施例中,对相关场景下的文本进行切词处理,得到切词集具体为:
通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
优选地,在上述任意实施例中,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
优选地,在上述任意实施例中,所述预设名单为:包含违禁词的词汇名单。
本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种语音标签判定方法。
在一些可能的实施方式中,通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种语音标签判定方法。
在一些可能的实施方式中,通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音标签判定方法,其特征在于,包括:
获取开源词汇,形成开源词汇集;
对相关场景下的文本进行切词处理,得到切词集;
获取音频文件,对所述音频文件进行处理,得到高频词汇集;
获取预设名单,对预设名单进行处理得到相关词汇集;
对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
根据所述词汇表对语音内容进行标签处理。
2.根据权利要求1所述的一种语音标签判定方法,其特征在于,获取开源词汇,形成开源词汇集具体为:
通过开源数据集获取开源词汇,形成开源词汇集。
3.根据权利要求1所述的一种语音标签判定方法,其特征在于,对相关场景下的文本进行切词处理,得到切词集具体为:
通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
4.根据权利要求1所述的一种语音标签判定方法,其特征在于,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
5.根据权利要求1所述的一种语音标签判定方法,其特征在于,所述预设名单为:包含违禁词的词汇名单。
6.一种语音标签判定系统,其特征在于,包括:
开源词汇模块,用于获取开源词汇,形成开源词汇集;
切词模块,用于对相关场景下的文本进行切词处理,得到切词集;
高频词模块,用于获取音频文件,对所述音频文件进行处理,得到高频词汇集;
相关词模块,用于获取预设名单,对预设名单进行处理得到相关词汇集;
并集模块,用于对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
处理模块,用于根据所述词汇表对语音内容进行标签处理。
7.根据权利要求6所述的一种语音标签判定系统,其特征在于,获取开源词汇,形成开源词汇集具体为:
通过开源数据集获取开源词汇,形成开源词汇集。
8.根据权利要求6所述的一种语音标签判定系统,其特征在于,对相关场景下的文本进行切词处理,得到切词集具体为:
通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至4中任一项所述的一种语音标签判定方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的一种语音标签判定方法。
CN202111068472.7A 2021-09-13 2021-09-13 一种语音标签判定方法、系统、存储介质及电子设备 Active CN113948087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111068472.7A CN113948087B (zh) 2021-09-13 2021-09-13 一种语音标签判定方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111068472.7A CN113948087B (zh) 2021-09-13 2021-09-13 一种语音标签判定方法、系统、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113948087A true CN113948087A (zh) 2022-01-18
CN113948087B CN113948087B (zh) 2023-01-17

Family

ID=79328126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111068472.7A Active CN113948087B (zh) 2021-09-13 2021-09-13 一种语音标签判定方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113948087B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140163966A1 (en) * 2012-12-06 2014-06-12 Accenture Global Services Limited Identifying glossary terms from natural language text documents
CN109543178A (zh) * 2018-11-01 2019-03-29 银江股份有限公司 一种司法文本标签体系构建方法及系统
CN109584882A (zh) * 2018-11-30 2019-04-05 南京天溯自动化控制系统有限公司 一种针对特定场景的语音转文字的优化方法及系统
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质
CN111985212A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 文本关键字识别方法、装置、计算机设备及可读存储介质
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN113095073A (zh) * 2021-03-12 2021-07-09 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140163966A1 (en) * 2012-12-06 2014-06-12 Accenture Global Services Limited Identifying glossary terms from natural language text documents
CN109543178A (zh) * 2018-11-01 2019-03-29 银江股份有限公司 一种司法文本标签体系构建方法及系统
CN109584882A (zh) * 2018-11-30 2019-04-05 南京天溯自动化控制系统有限公司 一种针对特定场景的语音转文字的优化方法及系统
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质
CN111985212A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 文本关键字识别方法、装置、计算机设备及可读存储介质
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN113095073A (zh) * 2021-03-12 2021-07-09 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113948087B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN105957531B (zh) 基于云平台的演讲内容提取方法及装置
CN110008378B (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
US20030177008A1 (en) Voice message processing system and method
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN109241332B (zh) 一种通过语音确定语义的方法及系统
CN109033064B (zh) 一种基于文本摘要的小学语文作文语料标签自动提取方法
CN111191022A (zh) 商品短标题生成方法及装置
CN113990352B (zh) 用户情绪识别与预测方法、装置、设备及存储介质
JP6208794B2 (ja) 会話分析装置、方法及びコンピュータプログラム
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
CN106550268B (zh) 视频处理方法和视频处理装置
CN111510765A (zh) 基于教学视频的音频标签智能标注方法及装置
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN112002328B (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
Coats The Corpus of British Isles Spoken English (CoBISE): A new resource of contemporary British and Irish speech
CN113948087B (zh) 一种语音标签判定方法、系统、存储介质及电子设备
Smaïli et al. Summarizing videos into a target language: Methodology, architectures and evaluation
CN112231440A (zh) 一种基于人工智能的语音搜索方法
CN112559740A (zh) 一种基于多模型融合的广告标签分类方法、系统及设备
Wan et al. Subtitles to Segmentation: Improving Low-Resource Speech-to-Text Translation Pipelines
CN112383770A (zh) 一种通过语音识别技术的影视版权监测比对方法
CN116229943B (zh) 一种对话式数据集的生成方法和装置
Pajupuu et al. Influence of verbal content on acoustics of speech emotions.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant