CN115938351A - Asr语言模型的构建方法、系统、存储介质及电子设备 - Google Patents

Asr语言模型的构建方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN115938351A
CN115938351A CN202111069758.7A CN202111069758A CN115938351A CN 115938351 A CN115938351 A CN 115938351A CN 202111069758 A CN202111069758 A CN 202111069758A CN 115938351 A CN115938351 A CN 115938351A
Authority
CN
China
Prior art keywords
data
sample data
language model
constructing
asr language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111069758.7A
Other languages
English (en)
Other versions
CN115938351B (zh
Inventor
邵历
齐路
唐会军
梁堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202111069758.7A priority Critical patent/CN115938351B/zh
Publication of CN115938351A publication Critical patent/CN115938351A/zh
Application granted granted Critical
Publication of CN115938351B publication Critical patent/CN115938351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及模型建立领域,尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。该方法包括:步骤1,获取语音样本数据;步骤2,对所述语音样本数据进行基础处理,得到样本数据;步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;步骤4,对所述第一样本数据进行变体替换,得到本体数据;步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;步骤6,根据所述训练样本对ASR语言模型进行构建。通过该方法可以获取高质量的ASR语言模型的训练样本,基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。

Description

ASR语言模型的构建方法、系统、存储介质及电子设备
技术领域
本发明涉及模型建立领域,尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。
背景技术
现有技术中,对于语音文本数据的内容审核主要通过ASR+nlp的解决方案。其中ASR作为整个方案的基础部分,决定着音频转译的具体内容,而ASR的语言模型作为ASR的重要组成部分,控制着ASR的转译文本,所以语言模型的效果对最终的影响十分显著,高质量的语言模型训练样本,对整体效果提升是十分明显的。但现有模型对于模型训练样本的获取过于单一,其导致最终得出的模型准确率不高,无法达到预期效果。
发明内容
本发明所要解决的技术问题是提供ASR语言模型的构建方法、系统、存储介质及电子设备。
本发明解决上述技术问题的技术方案如下:一种ASR语言模型的构建方法,包括:
步骤1,获取语音样本数据;
步骤2,对所述语音样本数据进行基础处理,得到样本数据;
步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
步骤4,对所述第一样本数据进行变体替换,得到本体数据;
步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;
步骤6,根据所述训练样本对ASR语言模型进行构建。
本发明的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的 ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
采用上述进一步方案的有益效果是,兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。
进一步,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
采用上述进一步方案的有益效果是,对语音样本数据进行统一化的基础处理可以更便于建立训练样本,使得训练样本更具有规范性。
进一步,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
进一步,步骤3具体为:
对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
进一步,步骤4具体为:
通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
进一步,步骤5具体为:
对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
本发明解决上述技术问题的另一种技术方案如下:一种ASR语言模型的构建系统,包括:
获取模块,用于获取语音样本数据;
基础处理模块,用于对所述语音样本数据进行基础处理,得到样本数据;
清洗模块,用于对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
替换模块,用于对所述第一样本数据进行变体替换,得到本体数据;
统计模块,用于对所述本体数据进行频数统计,根据统计结果生成训练样本;
构建模块,用于根据所述训练样本对ASR语言模型进行构建。
本发明的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
进一步,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
采用上述进一步方案的有益效果是,兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。
进一步,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
采用上述进一步方案的有益效果是,对语音样本数据进行统一化的基础处理可以更便于建立训练样本,使得训练样本更具有规范性。
进一步,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
进一步,清洗模块具体用于:
对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
进一步,替换模块具体用于:
通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
进一步,统计模块具体用于:
对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种ASR语言模型的构建方法。
本发明的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的 ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种ASR 语言模型的构建方法。
本发明的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的 ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
附图说明
图1为本发明一种ASR语言模型的构建方法实施例提供的流程示意图;
图2为本发明一种ASR语言模型的构建系统实施例提供的系统框架图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种ASR语言模型的构建方法,包括:
步骤1,获取语音样本数据;
步骤2,对所述语音样本数据进行基础处理,得到样本数据;
步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
步骤4,对所述第一样本数据进行变体替换,得到本体数据;
步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;
步骤6,根据所述训练样本对ASR语言模型进行构建。
在一些可能的实施方式中,在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
需要说明的是,针对语音样本数据,这些文本数据可以是开源数据,也可以是网络爬虫抓取来的数据,可以自身的商业数据,这些数据经过处理后可以作为模型的训练数据;
基础处理可以为:全角字符转半角字符、通过繁简体映射表将繁体字转简体字、考虑到直播场景内容偏口语化,去除长篇的文本化内容即长度过滤,长度过滤可以理解为:通过文本长度进行过滤,通过统计音频转译文本发现,口语表达的平均句子长度要低于书面表达、数字转汉字、英文大小写统一、标点符号作为分词依据,标点符号作为分词依据可以通过下例进行辅助理解,句号,问号,感叹号替换为换行,意味着进行断句,逗号,顿号,冒号,等非断句符号替换为空格作为分词依据;
关于字符清洗,通过识别非法字符,将非法字符剔除得到处理结果,非法字符为字符编码不在中文,英文,数字范围内的,为非法字符,这些字符不会出现在口语表达中;剔除掉那些不会出现在口语表达中的字符,例如一些emoji表情符,不可见字符等(因为网络收集到的文本数据是非常不可控的,可能存在各种的字符编码在其中,但很多是不会出现在口语表达中的);
针对变体替换,通过WFSA进行变体替换,替换后文本中出现的是对应的本体。因为在口语表达中其实不存在变体;
步骤5可以理解为:假设设置数量上限为N,对所有文本利用map reduce进行频数统计,如果句子的频数m大于N,则该句子只保留N 条。设置上限的作用是,避免单一句式影响整体数据分布。因为文本易复制的特点,真实数据中经常出现同一句话复制很多遍刷屏的现象,但是在音频中人们一句话说很多遍的代价无疑大了不少,出现的概率也小了很多,而且音频比同内容大不少,传输和存储的代价高,这是由于文本和音频表达形式的不同导致的差异,基于训练样本对模型进行构建。
实施例1,现假设有一批样本A,具体样本如表1:
表1样本A
欢迎,张大哥!
欢迎,张大哥!
欢迎,张大哥!
欢迎,张大哥!
觀看体验
hello,我是来自英国的BOB,
感谢,李哥送的320个飞机 
将A里面所有的全角字符转换为半角字符,标点符号替换为空格,作为分词依据,对于字符编码不在中文,英文,数字范围内的字符进行清除,结果如表2;
表2初步修改后的样本
欢迎 张大哥
欢迎 张大哥
欢迎 张大哥
欢迎 张大哥
觀看体验
hello我是来自英国的BOB
感谢 李哥送的320个飞机 
字符转换,将A中所有大写英文转换为小写,数字转为汉字,如320转换为三百二十,将繁体字符转换为简体,结果如表3;
表3繁简体转换以及大小写转换后的样本
欢迎 张大哥
欢迎 张大哥
欢迎 张大哥
欢迎 张大哥
观看体验
hello我是来自英国的bob 
进行频数控制,控制样本A中的单条样本出现频数,结果如表4;
表4频数控制后的样本
利用切词工具对样本进行切词,如表5所示;
表5切词后的样本
欢迎 张大哥
欢迎 张大哥
观看 体验
hello 我 是 来自 英国 的 bob
感谢 李哥 送 的 三百二十 个 飞机 
将表5中的内容进行语言模型训练。
优选地,在上述任意实施例中,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
在一些可能的实施方式中,兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。
优选地,在上述任意实施例中,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
在一些可能的实施方式中,对语音样本数据进行统一化的基础处理可以更便于建立训练样本,使得训练样本更具有规范性。
优选地,在上述任意实施例中,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
优选地,在上述任意实施例中,步骤3具体为:
对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
优选地,在上述任意实施例中,步骤4具体为:
通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
优选地,在上述任意实施例中,步骤5具体为:
对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
如图2所示,一种ASR语言模型的构建系统,包括:
获取模块100,用于获取语音样本数据;
基础处理模块200,用于对所述语音样本数据进行基础处理,得到样本数据;
清洗模块300,用于对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
替换模块400,用于对所述第一样本数据进行变体替换,得到本体数据;
统计模块500,用于对所述本体数据进行频数统计,根据统计结果生成训练样本;
构建模块600,用于根据所述训练样本对ASR语言模型进行构建。
在一些可能的实施方式中,在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
优选地,在上述任意实施例中,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
在一些可能的实施方式中,兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。
优选地,在上述任意实施例中,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
在一些可能的实施方式中,对语音样本数据进行统一化的基础处理可以更便于建立训练样本,使得训练样本更具有规范性。
优选地,在上述任意实施例中,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
优选地,在上述任意实施例中,清洗模块300具体用于:
对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
优选地,在上述任意实施例中,替换模块400具体用于:
通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
优选地,在上述任意实施例中,统计模块500具体用于:
对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种ASR语言模型的构建方法。
在一些可能的实施方式中,在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种ASR 语言模型的构建方法。
在一些可能的实施方式中,在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种ASR语言模型的构建方法,其特征在于,包括:
步骤1,获取语音样本数据;
步骤2,对所述语音样本数据进行基础处理,得到样本数据;
步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
步骤4,对所述第一样本数据进行变体替换,得到本体数据;
步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;
步骤6,根据所述训练样本对ASR语言模型进行构建。
2.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
3.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
4.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
5.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤3具体为:
对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
6.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤4具体为:
通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
7.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤5具体为:
对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
8.一种ASR语言模型的构建系统,其特征在于,包括:
获取模块,用于获取语音样本数据;
基础处理模块,用于对所述语音样本数据进行基础处理,得到样本数据;
清洗模块,用于对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
替换模块,用于对所述第一样本数据进行变体替换,得到本体数据;
统计模块,用于对所述本体数据进行频数统计,根据统计结果生成训练样本;
构建模块,用于根据所述训练样本对ASR语言模型进行构建。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至7中任一项所述的一种ASR语言模型的构建方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种ASR语言模型的构建方法。
CN202111069758.7A 2021-09-13 2021-09-13 Asr语言模型的构建方法、系统、存储介质及电子设备 Active CN115938351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111069758.7A CN115938351B (zh) 2021-09-13 2021-09-13 Asr语言模型的构建方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111069758.7A CN115938351B (zh) 2021-09-13 2021-09-13 Asr语言模型的构建方法、系统、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN115938351A true CN115938351A (zh) 2023-04-07
CN115938351B CN115938351B (zh) 2023-08-15

Family

ID=86554495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111069758.7A Active CN115938351B (zh) 2021-09-13 2021-09-13 Asr语言模型的构建方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115938351B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229588A (ja) * 2001-01-29 2002-08-16 Mitsubishi Electric Corp 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体
GB0304006D0 (en) * 2002-05-29 2003-03-26 Labs Corp L User interface, system, and method for automatically labelling phonic symbols to speech signals for correcting pronunciation
CN103164198A (zh) * 2011-12-14 2013-06-19 深圳市腾讯计算机系统有限公司 一种裁减语言模型的方法和装置
US20140278407A1 (en) * 2013-03-14 2014-09-18 Google Inc. Language modeling of complete language sequences
WO2014190732A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
EP3644215A1 (en) * 2018-10-22 2020-04-29 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
CN111554272A (zh) * 2020-04-27 2020-08-18 天津大学 一种面向中文语音识别的语言模型建模方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229588A (ja) * 2001-01-29 2002-08-16 Mitsubishi Electric Corp 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体
GB0304006D0 (en) * 2002-05-29 2003-03-26 Labs Corp L User interface, system, and method for automatically labelling phonic symbols to speech signals for correcting pronunciation
CN103164198A (zh) * 2011-12-14 2013-06-19 深圳市腾讯计算机系统有限公司 一种裁减语言模型的方法和装置
US20140278407A1 (en) * 2013-03-14 2014-09-18 Google Inc. Language modeling of complete language sequences
WO2014190732A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
EP3644215A1 (en) * 2018-10-22 2020-04-29 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
CN111554272A (zh) * 2020-04-27 2020-08-18 天津大学 一种面向中文语音识别的语言模型建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LZ BELTAGY等: "A Pretrained Language Model for Scientific Text", ARXIV, pages 1 - 3 *
李海洋: "汉语语音关键词检测中置信测度研究", 汉语语音关键词检测中置信测度研究, pages 58 - 83 *

Also Published As

Publication number Publication date
CN115938351B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN109408824B (zh) 用于生成信息的方法和装置
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
Neubig et al. How much is said in a tweet? A multilingual, information-theoretic perspective
CN112669851A (zh) 一种语音识别方法、装置、电子设备及可读存储介质
Bestgen Inadequacy of the chi-squared test to examine vocabulary differences between corpora
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN107066541A (zh) 客服问答数据的处理方法及系统
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN104750820A (zh) 一种语料库的过滤方法及装置
US10853569B2 (en) Construction of a lexicon for a selected context
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
Cotelo et al. A modular approach for lexical normalization applied to Spanish tweets
CN112992125A (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN112580339A (zh) 模型的训练方法、装置、电子设备及存储介质
CN111460146A (zh) 一种基于多特征融合的短文本分类方法及系统
CN115938351A (zh) Asr语言模型的构建方法、系统、存储介质及电子设备
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN113988047A (zh) 一种语料筛选方法和装置
CN114036907A (zh) 一种基于领域特征的文本数据扩增方法
CN109511000B (zh) 弹幕类别确定方法、装置、设备及存储介质
CN110347824A (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
JP2018147102A (ja) 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム
CN117174240B (zh) 一种基于大模型领域迁移的医疗影像报告生成方法
CN112559731B (zh) 市场情绪监测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant