CN110738987B - 一种基于统一表征的关键词检索方法 - Google Patents

一种基于统一表征的关键词检索方法 Download PDF

Info

Publication number
CN110738987B
CN110738987B CN201910992852.6A CN201910992852A CN110738987B CN 110738987 B CN110738987 B CN 110738987B CN 201910992852 A CN201910992852 A CN 201910992852A CN 110738987 B CN110738987 B CN 110738987B
Authority
CN
China
Prior art keywords
neural network
vector extractor
encoder
self
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910992852.6A
Other languages
English (en)
Other versions
CN110738987A (zh
Inventor
张卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910992852.6A priority Critical patent/CN110738987B/zh
Publication of CN110738987A publication Critical patent/CN110738987A/zh
Application granted granted Critical
Publication of CN110738987B publication Critical patent/CN110738987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于语音信号处理技术领域,尤其涉及一种基于统一表征的关键词检索方法,包括:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器得到声学表征矢量提取器;采用大量文本数据训练带有瓶颈层的神经网络文本自编码器得到语言表征矢量提取器;采用大量语音数据片段和对应的文本数据片段分别提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;通过语言表征矢量提取器和统一矢量提取器得到文本关键词的查询矢量;通过声学表征矢量提取器和统一矢量提取器得到语音关键词的查询矢量;对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量并计算与查询矢量的距离,若小于预设门限即认为命中查询词。

Description

一种基于统一表征的关键词检索方法
技术领域
本发明属于语音信号处理技术领域,尤其涉及一种基于统一表征的关键词检索方法。
背景技术
语音关键词检索是语音信号处理领域重要的核心技术之一。根据用户查询输入的不同,关键词检索可以分为大类:基于文本的关键词检索和基于样例的关键词检索。基于文本的关键词检索关键词以文本形式给出,借助ASR(自动语音识别)技术,然后根据识别结果进行文本的搜索和匹配;基于样例的关键词检索关键词以语音片段(样例)的形式给出,一般直接利用声学特征进行时间序列的模板匹配。
目前,基于文本的关键词检索系统和基于样例的关键词检索系统采用完全不同的架构,对用户来讲是完全不同的两套系统,这给系统的建模、使用、维护等方面都带来很多不便。如何有效的将基于文本的关键词检索系统和基于样例的关键词检索系统进行统一建模和检索是亟待解决的难题。
发明内容
针对上述问题,本发明提供了一种基于统一表征的关键词检索方法,包括以下步骤:
步骤1:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器;
步骤2:将神经网络语音自编码器的瓶颈层作为输出层,得到声学表征矢量提取器;
步骤3:采用大量文本数据训练带有瓶颈层的神经网络文本自编码器;
步骤4:将神经网络文本自编码器的瓶颈层作为输出层,得到语言表征矢量提取器;
步骤5:采用大量语音数据片段和对应的文本数据片段分别经过声学表征矢量提取器和语言表征矢量提取器后提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;
步骤6:若用户查询输入的是文本关键词,则依次通过语言表征矢量提取器和统一矢量提取器得到查询矢量;若用户查询输入的是语音关键词,则依次通过声学表征矢量提取器和统一矢量提取器得到查询矢量;
步骤7:对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量,并计算每个索引矢量与查询矢量的距离,若小于预设门限,即认为命中查询词。
所述神经网络语音自编码器采用深度神经网络、卷积神经网络或递归神经网络,中间为一节点数较少的瓶颈层,输入端和输出端呈对称结构。
所述步骤2包括:将神经网络语音自编码器中的输入层到瓶颈层的部分保留,其他部分舍弃,得到声学表征矢量提取器,瓶颈层的输出即为声学表征矢量。
所述神经网络文本自编码器采用递归神经网络,训练数据为目标语种的文本数据,器输入为文本字符序列,输出为同一段文本字符序列。
所述步骤5包括:首先训练带有瓶颈层的神经网络自编码器,自编码器输入声学表征矢量或对应的语言表征矢量,输出为同一个声学表征矢量;将该自编码器的瓶颈层作为输出层,得到统一矢量提取器。
本发明的有益效果是,可以对查询词为语音和文本的两种情况进行统一表征,从而可以将基于文本的关键词检索系统和基于样例的关键词检索系统统一为一套系统,方便整个系统的建模、使用和维护。
附图说明
图1为本发明的一种基于统一表征的关键词检索方法流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。
步骤1:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器:其中训练数据可以是各种语言混合的数据,不需要内容标注;自编码器输入为一段语音(或特征),输出为同一段语音(或特征);神经网络可以采用深度神经网络、卷积神经网络或递归神经网络,中间为一节点数较少的瓶颈层,输入端和输出端呈对称结构;训练目标是使输出语音(或特征)与输入语音(或特征)的均方误差最小;
步骤2:将神经网络语音自编码器的瓶颈层作为输出层,得到声学表征矢量提取器:将前述自编码中的输入层到瓶颈层的部分保留,其他部分舍弃,得到声学表征矢量提取器,瓶颈层的输出即为声学表征矢量;
步骤3:采用大量文本数据训练带有瓶颈层的神经网络文本自编码器:与步骤1类似,但训练数据为目标语种的文本数据,自编码器输入为文本字符序列,输出为同一段文本字符序列;神经网络一般采用递归神经网络;
步骤4:将神经网络文本自编码器的瓶颈层作为输出层,得到语言表征矢量提取器:与步骤2类似;
步骤5:采用大量语音数据片段和对应的文本数据片段分别经过声学表征矢量提取器和语言表征矢量提取器,提取对应的声学表征矢量和语言表征矢量,然后采用这些声学表征矢量和语言表征矢量训练统一矢量提取器:首先训练带有瓶颈层的神经网络自编码器,自编码器输入声学表征矢量或对应的语言表征矢量,输出为同一个声学表征矢量;将该自编码器的瓶颈层作为输出层,得到统一矢量提取器;
步骤6:若用户查询输入的是文本关键词,则依次通过语言表征矢量提取器和统一矢量提取器得到查询矢量;若用户查询输入的是语音关键词,则依次通过声学表征矢量提取器和统一矢量提取器得到查询矢量:无论用户输入的文本关键词还是语音关键词,均能得到统一查询矢量;
步骤7:对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量,并计算每个索引矢量与查询矢量的距离,如果某个索引矢量与查询矢量的距离小于预设门限,即认为命中查询词:其中距离计算可以采用欧式距离或余弦距离。
实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (1)

1.一种基于统一表征的关键词检索方法,其特征在于,包括以下步骤:
步骤1:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器;
步骤2:将神经网络语音自编码器的瓶颈层作为输出层,得到声学表征矢量提取器;
步骤3:采用大量文本数据训练带有瓶颈层的神经网络文本自编码器;
步骤4:将神经网络文本自编码器的瓶颈层作为输出层,得到语言表征矢量提取器;
步骤5:采用大量语音数据片段和对应的文本数据片段分别经过声学表征矢量提取器和语言表征矢量提取器后提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;
步骤6:若用户查询输入的是文本关键词,则依次通过语言表征矢量提取器和统一矢量提取器得到查询矢量;若用户查询输入的是语音关键词,则依次通过声学表征矢量提取器和统一矢量提取器得到查询矢量;
步骤7:对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量,并计算每个索引矢量与查询矢量的距离,若小于预设门限,即认为命中查询词;
所述神经网络语音自编码器采用深度神经网络、卷积神经网络或递归神经网络,中间为一节点数较少的瓶颈层,输入端和输出端呈对称结构;
所述步骤2包括:将神经网络语音自编码器中的输入层到瓶颈层的部分保留,其他部分舍弃,得到声学表征矢量提取器,瓶颈层的输出即为声学表征矢量;
所述神经网络文本自编码器采用递归神经网络,训练数据为目标语种的文本数据,器输入为文本字符序列,输出为同一段文本字符序列;
所述步骤5包括:首先训练带有瓶颈层的神经网络自编码器,自编码器输入声学表征矢量或对应的语言表征矢量,输出为同一个声学表征矢量;将该自编码器的瓶颈层作为输出层,得到统一矢量提取器。
CN201910992852.6A 2019-10-18 2019-10-18 一种基于统一表征的关键词检索方法 Active CN110738987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910992852.6A CN110738987B (zh) 2019-10-18 2019-10-18 一种基于统一表征的关键词检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910992852.6A CN110738987B (zh) 2019-10-18 2019-10-18 一种基于统一表征的关键词检索方法

Publications (2)

Publication Number Publication Date
CN110738987A CN110738987A (zh) 2020-01-31
CN110738987B true CN110738987B (zh) 2022-02-15

Family

ID=69269226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910992852.6A Active CN110738987B (zh) 2019-10-18 2019-10-18 一种基于统一表征的关键词检索方法

Country Status (1)

Country Link
CN (1) CN110738987B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992620B (zh) * 2024-04-03 2024-06-04 华东交通大学 一种基坑工程评估方法、系统、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN105138663A (zh) * 2015-09-01 2015-12-09 百度在线网络技术(北京)有限公司 词库查询方法及装置
CN108538285A (zh) * 2018-03-05 2018-09-14 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN108922521A (zh) * 2018-08-15 2018-11-30 合肥讯飞数码科技有限公司 一种语音关键词检索方法、装置、设备及存储介质
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN105138663A (zh) * 2015-09-01 2015-12-09 百度在线网络技术(北京)有限公司 词库查询方法及装置
CN108538285A (zh) * 2018-03-05 2018-09-14 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN108922521A (zh) * 2018-08-15 2018-11-30 合肥讯飞数码科技有限公司 一种语音关键词检索方法、装置、设备及存储介质
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BN特征的声学建模研究及其在关键词检索中的应用;刘迪源;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150915(第09期);第1-52页 *

Also Published As

Publication number Publication date
CN110738987A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110675288B (zh) 智能辅助审判方法、装置、计算机设备及存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
CN101447185B (zh) 一种基于内容的音频快速分类方法
CN107346340A (zh) 一种用户意图识别方法及系统
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN102867040A (zh) 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN112397054B (zh) 一种电力调度语音识别方法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN114266256A (zh) 一种领域新词的提取方法及系统
CN111917788A (zh) 基于hmm模型的sql注入攻击检测方法
CN114036957B (zh) 一种快速语义相似度计算方法
CN110738987B (zh) 一种基于统一表征的关键词检索方法
CN114491062A (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
Sarı et al. Fusion of LVCSR and posteriorgram based keyword search
CN108090039A (zh) 一种人名识别方法和装置
CN103246714A (zh) 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
Ondel et al. Bayesian phonotactic language model for acoustic unit discovery
CN116050419A (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN111859924B (zh) 一种基于word2vec模型构建词网的方法和装置
CN111723297B (zh) 一种面向网格社情研判的双重语义相似度判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant