CN106710606B - 基于人工智能的语音处理方法及装置 - Google Patents

基于人工智能的语音处理方法及装置 Download PDF

Info

Publication number
CN106710606B
CN106710606B CN201611246698.0A CN201611246698A CN106710606B CN 106710606 B CN106710606 B CN 106710606B CN 201611246698 A CN201611246698 A CN 201611246698A CN 106710606 B CN106710606 B CN 106710606B
Authority
CN
China
Prior art keywords
frame
present frame
present
decoded
flag bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611246698.0A
Other languages
English (en)
Other versions
CN106710606A (zh
Inventor
王知践
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611246698.0A priority Critical patent/CN106710606B/zh
Publication of CN106710606A publication Critical patent/CN106710606A/zh
Priority to US15/851,944 priority patent/US10580436B2/en
Application granted granted Critical
Publication of CN106710606B publication Critical patent/CN106710606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于人工智能的语音处理方法及装置,其中,方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。本发明中,在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。

Description

基于人工智能的语音处理方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的语音处理方法及装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。
目前多采用基于神经网络的时序类分类(Connectionist temporalclassification,简称CTC)建模进行语音识别,识别过程中对语音包进行解码时,现有的CTC建模语音识别系统对该语音包中所有的音频帧进行解码。然后实际应用中,一个语音包中有些音频帧可能并不携带信息,这些不携带信息的音频帧一般就是静音帧,现有的CTC建模语音识别系统对静音帧进行解码实际上就是一种冗余解码。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的语音处理方法,用于解决现有基于CTC建模的语音识别系统对语音包中包括的静音帧进行解码存在冗余解码的问题。
本发明的第二个目的在于提出一种基于人工智能的语音处理装置。
本发明的第三个目的在于提出另一种基于人工智能的语音处理装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的语音处理方法,包括:
利用声学模型对待解码的语音包中的当前帧进行打分;
根据打分结果识别当前帧是否为准静音帧;
如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
本发明实施例的基于人工智能的语音处理方法,通过在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的语音处理装置,包括:
打分模块,用于利用声学模型对待解码的语音包中的当前帧进行打分;
识别模块,根据打分结果识别当前帧是否为准静音帧;
解码模块,用于如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
本发明实施例的基于人工智能的语音处理装置,通过在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。
为达上述目的,本发明第三方面实施例提出了另一种基于人工智能的语音处理装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于人工智能的语音处理方法,所述方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的语音处理方法,所述方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种基于人工智能的语音处理方法的流程示意图;
图2为本发明实施例提供的一种识别准静音帧的流程示意图;
图3为本发明实施例提供的另一种基于人工智能的语音处理方法的流程示意图;
图4为本发明实施例提供的一种待解码的语音包中各帧解码时的示意图;
图5为本发明实施例提供的一种CTC建模单元的拓扑图;
图6为本发明实施例提供的另一种CTC建模单元的拓扑图;
图7为本发明实施例提供的一种基于人工智能的语音处理装置的结构示意图;
图8为本发明实施例提供的识别模块的结构示意图;
图9为本发明实施例提供的打分模块的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的语音处理方法及装置。
图1为本发明实施例所提供的一种基于人工智能的语音处理方法的流程示意图。如图1所示,该基于人工智能的语音处理方法包括以下步骤:
S101、利用声学模型对待解码的语音包中的当前帧进行打分。
本实施例中,利用声学模型可以的待解码的语音包中的当前帧进行打分,即利用声学模型对当前帧所携带的声学特征进行计算,获得声学特征对应的每一个隐状态的后验概率。例如,当前帧所携带的声学特征为一个发音,利用声学模型可以对该发音对应的可能的字进行打分,获取该发音所对应的字的一个后验概率,此处每个可能的字就是一个隐状态。
S102、根据打分结果识别当前帧是否为准静音帧。
本实施例中,在识别出当前帧为准静音帧时,则执行S103;在识别出当前帧非准静音帧时,则执行S104。
图2为本发明实施例中提供的一种识别准静音帧的流程示意图。具体地,该识别准静音帧的流程包括以下步骤:
S201、根据打分结果获取当前帧的最优隐状态和次优隐状态。
在经过声学模型对当前帧所携带的声学特征对应的每个隐状态进行打分后,就可以根据打分结果识别出当前帧的最优隐状态和次优隐状态。例如,可以将最优隐状态称为state A,将次优隐状态称为state B。
S202、判断最优隐状态对应的状态标识是否为空白标识。
本实施例中,在预先对声学特征进行训练学习的过程中,可以为声学特征对应的每个状态生成一个状态标识,进一步地在训练学习的过程中还可以将一些状态标识识别成空白标识。本实施例中,可以预先利用识别成空白标识的所有状态标识生成一个列表或者关联关系。
在获取到的最优隐状态即state A后,判断该最优隐状态对应的状态标识是否为空白标识。具体地,可以查询该state A对应的状态标识,是否在上述的列表或者关联关系中,如果存在列表或者关联关系中,则可以判断出该state A的状态标识为空白标识。
如果判断结果为最优隐状态对应的状态标识为空白标识,则执行S203;如果判断结果为最优隐状态对应的状态标识非空白标识,则执行S209。
S203、获取最优隐状态和次优隐状态之间的得分差值。
本实施例中,为了避免将携带少量信息的帧识别成静音帧,在确定出该state A的状态标识为空白标识之后,获取state A与次优状态即state B之间的得分差值。具体地,在声学模型可以对声学特征的每个state的进行打分,在确定出该state A的状态标识为空白标识之后,利用在声学模型中state A的得分与state B的得分进行相减,就可以获取到一个得分差值。其中,每个state的得分就是每个状态出现的后验概率。
S204、判断得分差值是否大于预设的阈值。
本实施例中,预先设置一个阈值,在获取到得分差值后,就可以将该得分差值与预设的阈值进行比较,以判断当前帧是否为准静音帧。
如果得分差值大于预设的阈值,则执行S205;如果得分差值小于或者等于预设的阈值,则执行S207。
S205、识别出当前帧为准静音帧。
实际应用中,如果得分差值大于预设的阈值,可以说明state A和state B之间的差异比较大,说明当前帧被识别为state B的可能特别小,从而将当前帧识别成准静音帧。
S206、利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。
本实施例中,预先设置有两个标志位,分别为第一标志位和第二标志位。其中,第一标志位用于指示出在解码时不需要对当前帧进行解码。第二标志位用于指示出在解码时需要对当前帧进行解码。
在识别出当前帧为准静音帧后,就可以利用第一标志位标记当前帧。当对当前帧进行解码时,可以根据当前帧的标志位确定是否为当前帧进行解码。此处,当前帧的标志位为第一标志位,则在解码时就可以确定对当前帧不进行解码,可以跳过当前帧。
S207、识别出当前帧为伪静音帧。
实际应用中,如果得分差值小于或者等于预设的阈值,可以说明state A和stateB之间的差异不大,说明当前帧被识别为state B的可能特别相对较高,可能当前帧还是会携带语音,从而将当前帧识别成伪静音帧。
S208、利用第二标志位标记当前帧,其中,所述第二标志位指示出在解码时需要对当前帧进行解码。
在识别出当前帧为伪静音帧后,就可以利用第二标志位标记当前帧。当对当前帧进行解码时,可以根据当前帧的标志位确定是否为当前帧进行解码。此处,当前帧的标志位为第二标志位,则在解码时可以确定需要对当前帧进行解码。
S209、识别出当前帧为语音帧。
本实施例中,可以预先利用识别成空白标识的所有状态标识生成一个列表或者关联关系。进一步地,在上述列表或者关联关系中查询state A对应的状态标识时,如果在上述列表或者关联关系中未查询到state A对应的状态标识,则可以确定出state A对应的状态标识为非空白标识,此时可以识别出当前帧为语音帧。
进一步地,在识别出当前帧为语音帧后,说明在解码时对当前帧进行解码,以获取到该语音帧携带的内容。本实施例中,在识别出当前帧为语音帧后,就可以利用第二标志位标记当前帧,即执行S208。当对当前帧进行解码时,可以根据当前帧的标志位确定是否为当前帧进行解码。此处,当前帧的标志位为第二标志位,则在解码时可以确定需要对当前帧进行解码。
S103、在解码时跳过当前帧,不对当前帧进行解码。
本实施例中,在识别出当前帧为准静音帧时,说明当前帧中不携带相关内容或者不携带任何内容,则可以在解码时跳过当前帧,不对当前帧进行解码,从而可以提升解码的速度,加快对语音包的识别。
S104、在解码时对当前帧进行解码。
本实施例中,当识别出当前帧不是准静音帧时,说明当前帧携带一定的语音,为了保证解码出的信息不失真,需要对当前帧进行解码。
本实施例提供的基于人工智能的语音处理方法,利用声学模型对待解码的语音包中的当前帧进行打分,根据打分结果识别当前帧是否为准静音帧,如果识别出当前帧为准静音帧,在解码时跳过当前帧。本实施例中,在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。
图3为本发明实施例提供的另一种基于人工智能的语音处理方法的流程示意图。如图3所示,该基于人工智能的语音处理方法包括以下步骤:
S301、从待解码的语音包中获取当前帧。
S302、判断当前帧是否为待解码的语音包中的前三帧中的一帧。
在获取到待解码的语音包的当前帧之后,判断当前帧是否为待解码的语音包的前三帧。具体地,可以对当前帧进行统计计数,可以通过计数值来判断当前帧是否为待解码的语音包中的前三帧中的一帧。
如果判断结果为当前帧不是待解码的语音包中的前三帧中的一帧,则执行S303;如果判断结果为当前帧是待解码的语音包中的前三帧中的一帧,则执行S314即利用第二标志位标记当前帧。
本实施例中,为了使待解码的语音包能够顺利进入解码器,需要对该语音包中的前三帧进行解码,则在判断出当前帧为该语音包中的前三帧中的一帧时,则利用第二标志位标记当前帧,在解码时识别出该第二标志位后,就会对当前帧进行解码。
S303、判断当前帧是否为待解码的语音包中的最后一帧。
如果判断结果为当前帧不是待解码的语音包中的最后一帧,则执行S304如果判断结果为当前帧是待解码的语音包中的最后一帧,则执行S314即利用第二标志位标记当前帧。
实际应用中,当下一个待解码的语音包第一帧为语音帧时,为了能够使该语音帧能够真实地反应所携带的内容,需要对当前的待解码的语音包中的最后一帧进行解码。在判断出当前帧不是待解码的语音包中的前三帧中的一帧后,进一步地,判断当前帧是否为待解码的语音包的最后一帧。具体地,一个待解码的语音包所包含的帧个数可以预设获取到,根据统计计数能确定出当前帧是否为最后一帧。可选地,可以在获取到当前帧之后,如果继续获取到下一帧,则说明当前帧不是最后一帧。可选地,待解码的语音包中在结束时可能携带一个结束标识符,如果在获取到当前帧之后,如果当前帧携带该结束标识符,则说明当前帧标识最后一帧。
当下一个待解码的语音包第一帧为语音帧时,为了能够使该语音帧能够真实地反应所携带的内容,需要对当前的待解码的语音包中的最后一帧进行解码。本实施例中,则利用第二标志位标记当前帧,在解码时识别出该第二标志位后,就会对当前帧进行解码。
S304、判断与当前帧相邻的前一帧是否为语音帧。
本实施例中,为了能够保证语音帧真实地反应所携带的内容,在对当前帧进行声学模型打分时,还需要判断与当前帧相邻的前一帧是否为语音帧,如果判断结果为与当前帧相邻的前一帧为非语音帧,则执行S305;如果该前一帧为语音帧,则执行S314即利用第二标志位标记当前帧。
一般情况下,当一个帧为语音帧时,该语音帧的前一帧和后一帧是与该语音帧为关联的帧,在对该语音帧进行解码需要对相邻的前一帧和后一帧进行解码。
S305、利用声学模型对当前帧进行打分。
具体过程可参见上述实施例中相关内容的记载,此处不再赘述。
S306、根据打分结果获取当前帧的最优隐状态和次优隐状态。
S307、判断最优隐状态对应的状态标识是否为空白标识。
如果判断结果为最优隐状态对应的状态标识为空白标识,则执行S308;如果判断结果为最优隐状态对应的状态标识非空白标识,则执行S313
S308、获取最优隐状态和次优隐状态之间的得分差值。
S309、判断得分差值是否大于预设的阈值。
如果判断结果为得分差值大于预设的阈值,则执行S310;如果判断结果为得分差值小于或者等于预设的阈值,则执行S312。
S306~S309的具体介绍,可参见上述实施例中相关内容的记载,此处不再赘述。
S310、识别出当前帧为准静音帧
S311、利用第一标志位标记当前帧。
进一步地,当利用第一标志位对准静音帧标记完成后,就可以执行S317,即在解码时按照当前帧的标记位进行解码。
S312、识别出当前帧为伪静音帧。
在识别出当前帧为伪静音帧时,则执行S314。
S313、识别出当前帧为语音帧。
当S307中判断出最优隐状态对应的状态标识非空白标识,则执行该S313,继续执行S314。
S314、利用第二标志位标记当前帧。
利用第二标志位标记对为语音帧的当前帧进行标记后,继续执行S315。
S315、获取与当前帧相邻的前一帧对应的标志位。
S316、如果前一帧对应的标志位为第一标志位,则将前一帧的标志位调整成第二标志位。
在当前帧为语音帧时,为了保证该语音帧能够真实地反映出所携带的信息,需要对当前帧相邻的前一帧和后一帧进行解码。本实施例中,由于在当前帧处理完成后,会将后一帧作为当前帧进行处理,而且后一帧在处理的过程中,会执行S304即判定后一帧的前一帧即当前帧是否为语音帧,如果为语音帧则利用第二标志位标记该后一帧。因此,本实施例中,只需要对与当前帧相邻的前一帧对应的标志位进行调整。即在获取到前一帧对应的标志位为第一标志位时,则将前一帧的标志位调整为第二标志位,从而在解码到前一帧时就会对前一帧进行解码,以便于可以在当前帧为语音帧时,能够正确地解码出所携带的实际信息。本实施例中,在当前帧为语音帧时,需要对该语音帧相邻的前后一帧进行解码,从而能够正确地解码出所携带的实际信息。
图4为本发明实施例提供的一种待解码的语音包中各帧解码时的示意图。如图4所示,虚线表示跳帧,实现表示不跳帧。待解码的语音包的前三帧f1~f3均需要解码,fj一个语音帧的则该语音帧的前一帧fi和后一帧fk都需要解码。然后fl、fm均为一个准静音帧,此处需要进行跳帧,直到出现一个标记为第二标志位的一个帧出现,则继续对这一帧解码。当解码到最后一个帧时,需要对最后一帧ffinal进行解码。在该示意图中可以看出,在对待解码的语音包进行解码时,可以跳过准静音帧,从而能够加速解码,提升语音识别的速度。
图5为本发明实施例提供的一种CTC建模单元的拓扑图。在该拓扑图中,包括状态单元和空白单元,其中,状态单元中包括除了被识别出空白状态的其他状态。其中,空白状态就是被标记为空白标识对应的状态。
待解码的语音包进入CTC建模中,可以通过该状态单元直接输出,也可以在通过状态单元后进入空白单元,经过空白单元后再输出。当语音包中连续出现同一个状态时,可以在状态单元进行自跳。当语音包中连续出现空白状态时,可以在空白单元中进行自跳。
图6为本发明实施例提供的另一种CTC建模单元的拓扑图。图6所示的拓扑图,为图5所示拓扑图的等价形式。由于空白单元是无意义的,就是没有任何的物理意义,这个单元就是硬引入来的,如图6所示,虚线表示的空白单元可以被去除掉。即将空白单元对应的空白状态也设置在状态单元中,这样就可以当出现空白状态时,就可以通过状态单元直接输出。连续同一状态或者连续空白状态,通过状态单元的自跳完成。
S317、在解码时按照当前帧的标记位进行解码。
具体地,在解码时,如果当前帧的标记位为第一标记位,则跳过当前帧,即不对当前帧进行解码,如果当前帧的标记位为第二标记位,则对当前帧进行解码。
本实施例提供的基于人工智能的语音处理方法,利用声学模型对待解码的语音包中的当前帧进行打分,根据打分结果识别当前帧是否为准静音帧,如果识别出当前帧为准静音帧,在解码时跳过当前帧。本实施例中,在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。进一步地,在当前帧为语音帧时,需要对该语音帧相邻的前后一帧进行解码,从而能够正确地解码出所携带的实际信息。
图7为本发明实施例提供的一种基于人工智能的语音处理装置的结构示意图。如图7所示,该基于人工智能的语音处理装置包括:打分模块11、识别模块12和解码模块13。
其中,打分模块11,用于利用声学模型对待解码的语音包中的当前帧进行打分。
识别模块12,根据打分结果识别当前帧是否为准静音帧。
解码模块13,用于如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
图8为本发明实施例提供的一种识别模块的结构示意图。如图8所示,该识别模块12包括:第一获取单元121、第二获取单元122、识别单元123和标记单元124。
其中,第一获取单元121,用于根据所述打分结果获取当前帧的最优隐状态和次优隐状态。
第二获取单元122,用于当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值。
识别单元123,用于如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧。
标记单元124,用于利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。
进一步地,识别单元123,还用于如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧。
标记单元124,还用于利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。
进一步地,识别单元123,还用于当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧。
标记单元124,还用于利用所述第二标志位标记当前帧。
图9为本发明实施例提供的一种打分模块的结构示意图。如图9所示,该打分模块11包括:判断单元111和打分单元112。
其中,判断单元111,用于判断与当前帧相邻的前一帧是否为语音帧。
打分单元112,用于如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分。
标记单元124,还用于在所述判断单元111的判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧。
进一步地,识别模块12还包括:第三获取单元125和调整单元126。
第三获取单元125,用于所述识别单元当所述最优隐状态对应的状态标识为非空白标识时,所述识别单元123识别出当前帧为语音帧之后,获取所述前一帧对应的标志位。
调整单元126,用于如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。
进一步地,基于人工智能的语音处理装置还包括:判断模块14。
判断模块14,用于判断当前帧是否为所述语音包中的前三帧中的一帧,以及在判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧。
标记单元124,用于如果判断出当前帧为语音包中的前三帧中的一帧,或者当前帧为语音包中的最后一帧,利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。
本实施例提供的基于人工智能的语音处理装置,通过利用声学模型对待解码的语音包中的当前帧进行打分,根据打分结果识别当前帧是否为准静音帧,如果识别出当前帧为准静音帧,在解码时跳过当前帧。本实施例中,在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。进一步地,在当前帧为语音帧时,需要对该语音帧相邻的前后一帧进行解码,从而能够正确地解码出所携带的实际信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基于人工智能的语音处理方法,其特征在于,包括:
利用声学模型对待解码的语音包中的当前帧进行打分;
根据打分结果识别当前帧是否为准静音帧;
如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码;
其中,所述根据打分结果识别当前帧是否为准静音帧,包括:
根据所述打分结果获取当前帧的最优隐状态和次优隐状态;
当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值;
如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧;
利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。
2.根据权利要求1所述的基于人工智能的语音处理方法,其特征在于,还包括:
如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧;
利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。
3.根据权利要求2所述的基于人工智能的语音处理方法,其特征在于,还包括:
当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧;
利用所述第二标志位标记当前帧。
4.根据权利要求3所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分,包括:
判断与当前帧相邻的前一帧是否为语音帧;
如果判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧;
如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分。
5.根据权利要求4所述的基于人工智能的语音处理方法,其特征在于,所述当所述最优隐状态对应的标识为非空白标识时,识别出当前帧为语音帧之后,还包括:
获取所述前一帧对应的标志位;
如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。
6.根据权利要求1-5任一项所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分之前,包括:
判断当前帧是否为所述语音包中的前三帧中的一帧;
如果判断出当前帧为语音包中的前三帧中的一帧,利用第二标志位标记当前帧,其中,所述第二标志位指示出在解码时需要对当前帧进行解码;
如果判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧;
如果判断出当前帧为语音包中的最后一帧,利用所述第二标志位标记当前帧。
7.一种基于人工智能的语音处理装置,其特征在于,包括:
打分模块,用于利用声学模型对待解码的语音包中的当前帧进行打分;
识别模块,根据打分结果识别当前帧是否为准静音帧;
解码模块,用于如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码;
其中,所述识别模块,包括:
第一获取单元,用于根据所述打分结果获取当前帧的最优隐状态和次优隐状态;
第二获取单元,用于当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值;
识别单元,用于如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧;
标记单元,用于利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。
8.根据权利要求7所述的基于人工智能的语音处理装置,其特征在于,所述识别单元,还用于如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧;
所述标记单元,还用于利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。
9.根据权利要求8所述的基于人工智能的语音处理装置,其特征在于,所述识别单元,还用于当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧;
所述标记单元,还用于利用所述第二标志位标记当前帧。
10.根据权利要求9所述的基于人工智能的语音处理装置,其特征在于,所述打分模块,包括:判断单元和打分单元;
所述判断单元,用于判断与当前帧相邻的前一帧是否为语音帧;
所述打分单元,用于如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分;
所述标记单元,还用于在所述判断单元的判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧。
11.根据权利要求10所述的基于人工智能的语音处理装置,其特征在于,所述识别模块,还包括:
第三获取单元,用于当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧之后,获取所述前一帧对应的标志位;
所述标记单元,用于如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。
12.根据权利要求7-11任一项所述的基于人工智能的语音处理装置,其特征在于,还包括:
判断模块,用于判断当前帧是否为所述语音包中的前三帧中的一帧,以及在判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧;
标记单元,用于如果判断出当前帧为语音包中的前三帧中的一帧,或者当前帧为语音包中的最后一帧,利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。
CN201611246698.0A 2016-12-29 2016-12-29 基于人工智能的语音处理方法及装置 Active CN106710606B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611246698.0A CN106710606B (zh) 2016-12-29 2016-12-29 基于人工智能的语音处理方法及装置
US15/851,944 US10580436B2 (en) 2016-12-29 2017-12-22 Method and device for processing speech based on artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611246698.0A CN106710606B (zh) 2016-12-29 2016-12-29 基于人工智能的语音处理方法及装置

Publications (2)

Publication Number Publication Date
CN106710606A CN106710606A (zh) 2017-05-24
CN106710606B true CN106710606B (zh) 2019-11-08

Family

ID=58906069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611246698.0A Active CN106710606B (zh) 2016-12-29 2016-12-29 基于人工智能的语音处理方法及装置

Country Status (2)

Country Link
US (1) US10580436B2 (zh)
CN (1) CN106710606B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
CN108039175B (zh) 2018-01-29 2021-03-26 北京百度网讯科技有限公司 语音识别方法、装置及服务器
CN114999535A (zh) * 2018-10-15 2022-09-02 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN110136715B (zh) 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置
CN110782907B (zh) * 2019-11-06 2023-11-28 腾讯科技(深圳)有限公司 语音信号的发送方法、装置、设备及可读存储介质
CN111681663B (zh) * 2020-07-24 2023-03-31 北京百瑞互联技术有限公司 一种降低音频编码运算量的方法、系统、存储介质及设备
CN113707137B (zh) * 2021-08-30 2024-02-20 普强时代(珠海横琴)信息技术有限公司 解码实现方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1245376A (zh) * 1998-08-17 2000-02-23 英业达股份有限公司 网络电话中的静音检测方法
KR20030079515A (ko) * 2002-04-04 2003-10-10 엘지전자 주식회사 오디오 디코더의 노이즈 제거 방법
CN1950882A (zh) * 2004-05-12 2007-04-18 诺基亚公司 语音识别系统中的语音结束检测
CN101604523A (zh) * 2009-04-22 2009-12-16 网经科技(苏州)有限公司 在g.711语音编码中隐藏冗余信息的方法
CN103035238A (zh) * 2012-11-27 2013-04-10 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN103247293A (zh) * 2013-05-14 2013-08-14 中国科学院自动化研究所 一种语音数据的编码及解码方法
CN103680500A (zh) * 2012-08-29 2014-03-26 北京百度网讯科技有限公司 一种语音识别的方法和装置
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105427870A (zh) * 2015-12-23 2016-03-23 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105594148A (zh) * 2013-10-11 2016-05-18 高通股份有限公司 传送冗余帧信息的系统和方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US9767791B2 (en) * 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
US10186263B2 (en) * 2016-08-30 2019-01-22 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Spoken utterance stop event other than pause or cessation in spoken utterances stream
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1245376A (zh) * 1998-08-17 2000-02-23 英业达股份有限公司 网络电话中的静音检测方法
KR20030079515A (ko) * 2002-04-04 2003-10-10 엘지전자 주식회사 오디오 디코더의 노이즈 제거 방법
CN1950882A (zh) * 2004-05-12 2007-04-18 诺基亚公司 语音识别系统中的语音结束检测
CN101604523A (zh) * 2009-04-22 2009-12-16 网经科技(苏州)有限公司 在g.711语音编码中隐藏冗余信息的方法
CN103680500A (zh) * 2012-08-29 2014-03-26 北京百度网讯科技有限公司 一种语音识别的方法和装置
CN103035238A (zh) * 2012-11-27 2013-04-10 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN103247293A (zh) * 2013-05-14 2013-08-14 中国科学院自动化研究所 一种语音数据的编码及解码方法
CN105594148A (zh) * 2013-10-11 2016-05-18 高通股份有限公司 传送冗余帧信息的系统和方法
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105427870A (zh) * 2015-12-23 2016-03-23 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置

Also Published As

Publication number Publication date
US10580436B2 (en) 2020-03-03
CN106710606A (zh) 2017-05-24
US20180190314A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
CN106710606B (zh) 基于人工智能的语音处理方法及装置
CN105096941B (zh) 语音识别方法以及装置
CN105334743B (zh) 一种基于情感识别的智能家居控制方法及其系统
CN105336322B (zh) 多音字模型训练方法、语音合成方法及装置
Gow Jr et al. Lexical and prelexical influences on word segmentation: evidence from priming.
CN107679033A (zh) 文本断句位置识别方法和装置
ES2214815T3 (es) Verificacion e identificacion del hablante mediante voces caracteristicas.
US8843372B1 (en) Natural conversational technology system and method
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN107301860A (zh) 基于中英文混合词典的语音识别方法及装置
CN110085261A (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
CN107481728A (zh) 背景声消除方法、装置及终端设备
CN107871496B (zh) 语音识别方法和装置
CN102270450A (zh) 多模型自适应和语音识别装置及其方法
CN105551480B (zh) 方言转换方法及装置
CN107644085A (zh) 体育赛事新闻的生成方法和装置
CN108091324A (zh) 语气识别方法、装置、电子设备和计算机可读存储介质
CN108231089A (zh) 基于人工智能的语音处理方法及装置
CN112765333B (zh) 基于情感与提示词结合的自动对话生成方法及系统
CN108899033A (zh) 一种确定说话人特征的方法及装置
Mori et al. Conversational and Social Laughter Synthesis with WaveNet.
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
Kendall et al. An analysis of aphasic naming errors as an indicator of improved linguistic processing following phonomotor treatment
CN109039647A (zh) 终端及其口语学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant