CN111105787B - 一种文本匹配方法、设备及计算机可读存储介质 - Google Patents

一种文本匹配方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111105787B
CN111105787B CN201911412090.4A CN201911412090A CN111105787B CN 111105787 B CN111105787 B CN 111105787B CN 201911412090 A CN201911412090 A CN 201911412090A CN 111105787 B CN111105787 B CN 111105787B
Authority
CN
China
Prior art keywords
pronunciation
editing distance
optimal
matching
phoneme sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911412090.4A
Other languages
English (en)
Other versions
CN111105787A (zh
Inventor
蒋子缘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201911412090.4A priority Critical patent/CN111105787B/zh
Publication of CN111105787A publication Critical patent/CN111105787A/zh
Application granted granted Critical
Publication of CN111105787B publication Critical patent/CN111105787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本匹配方法、设备及计算机可读存储介质,所述方法包括:获得对应声音信号的词序列和音素序列;通过动态规划寻找所述词序列和音素序列的最优匹配结果;基于所述最优匹配结果输出对应所述声音信号的指定文本;应用本发明实施例的文本匹配方法,能够对声音信号进行语音识别,输出对应声音信号的指定文本,指定文本包括发音内容和文字内容,指定文本中的发音内容和文字内容能够对应。

Description

一种文本匹配方法、设备及计算机可读存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种文本匹配方法、设备及计算机可读存储介质。
背景技术
语音识别系统能够用于对声音进行识别并输出对应声音的识别文本。根据需求,输出的识别文本可能是中文、英文、拼音中的任一种文本类型,也可能是两种或两种以上的文本类型。针对不同的情况,有的要求语音识别系统输出中文和标准拼音,有的要求语音识别系统输出中文和用户的真实发音,有的对于一些英文也会要求给出对应的用户发音。在进行包括至少两种文本类型的识别文本输出时候,需要对两种文本类型依据内容进行对应。
发明内容
本发明实施例提供了一种文本匹配方法、设备及计算机可读存储介质,能够基于语音识别输出与语音对应的指定文本。
本发明一方面提供一种文本匹配方法,所述方法包括:基于语音识别获得对应声音信号的词序列和音素序列;通过动态规划寻找所述词序列和音素序列的最优匹配结果;基于所述最优匹配结果输出对应所述声音信号的指定文本。
在一可实施方式中,所述通过动态规划寻找词序列和音素序列的最优匹配结果,包括:基于发音字典构建所述词序列的发音网络,所述发音网络包括N个发音节点和发音路径,所述发音路径用于连接所述N个发音节点;基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,所述匹配结果集中包括多个匹配结果;根据所述多个匹配结果确定最优匹配结果。
在一可实施方式中,所述基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,包括:基于所述发音路径确定N个发音节点的位置;计算第一位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第一编辑距离集;基于第一编辑距离,计算第一位置和第二位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第二编辑距离集;以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第N编辑距离集。
在一可实施方式中,所述每一个编辑距离均记录有对应的来源信息,在所述第N编辑距离集中,对应音素序列最后一个位置的第N编辑距离为最优第N编辑距离;所述根据所述多个匹配结果确定最优匹配结果,包括:通过对应最优第N编辑距离的来源信息确定对应所述最优第N编辑距离的最优第N-1编辑距离;以此类推,通过对应最优第二编辑距离的来源信息确定最优第一编辑距离;将所述最优第一编辑距离对应至起始编辑距离;基于起始编辑距离至最优第N编辑距离确定回溯路径;将所述回溯路径确定为最优匹配结果。
在一可实施方式中,在基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集的过程中,所述方法还包括:将发音节点与所述音素序列中的当前位置进行匹配,获得当前编辑距离;判断当前位置编辑距离是否超出编辑距离阈值;当判断为当前位置编辑距离超出编辑距离阈值时,停止将发音节点与所述音素序列中的剩余位置进行匹配。
本发明另一方面提供一种文本匹配设备,所述设备包括:识别模块,用于基于语音识别获得对应声音信号的词序列和音素序列;寻找模块,用于通过动态规划寻找所述词序列和音素序列的最优匹配结果;输出模块,用于基于所述最优匹配结果输出对应所述声音信号的指定文本。
在一可实施方式中,所述寻找模块,包括:基于发音字典构建所述词序列的发音网络,所述发音网络包括N个发音节点和发音路径,所述发音路径用于连接所述N个发音节点;基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,所述匹配结果集中包括多个匹配结果;根据所述多个匹配结果确定最优匹配结果。
在一可实施方式中,在所述寻找模块中,基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,还包括:基于所述发音路径确定N个发音节点的位置;计算第一位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第一编辑距离集;基于第一编辑距离,计算第一位置和第二位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第二编辑距离集;以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第N编辑距离集。
在一可实施方式中,所述每一个编辑距离均记录有对应的来源信息,在所述第N编辑距离集中,对应音素序列最后一个位置的第N编辑距离为最优第N编辑距离;所述寻找模块,包括:通过对应最优第N编辑距离的来源信息确定对应所述最优第N编辑距离的最优第N-1编辑距离;以此类推,通过对应最优第二编辑距离的来源信息确定最优第一编辑距离;将所述最优第一编辑距离对应至起始编辑距离;基于起始编辑距离至最优第N编辑距离确定回溯路径;将所述回溯路径确定为最优匹配结果。
在一可实施方式中,所述寻找模块,还包括:将发音节点与所述音素序列中的当前位置进行匹配,获得当前编辑距离;判断当前位置编辑距离是否超出编辑距离阈值;当判断为当前位置编辑距离超出编辑距离阈值时,停止将发音节点与所述音素序列中的剩余位置进行匹配。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的文本匹配方法。
本发明实施例提供的文本匹配方法、设备及计算机可读存储介质,能够对声音信号进行语音识别,按照需要输出对应声音信号的指定文本。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例一种文本匹配方法的实现流程示意图;
图2示出了本发明实施例一种文本匹配方法动态规划的实现流程示意图;
图3示出了本发明实施例一种发音网络的匹配示意图;
图4示出了本发明实施例一种文本匹配方法编辑距离匹配的实现流程示意图;
图5示出了本发明实施例一种文本匹配方法路径回溯的实现流程示意图。
图6示出了本发明实施例另一种发音网络的匹配示意图;
图7示出了本发明实施例一种文本匹配方法匹配过程的实现流程示意图;
图8示出了本发明实施例另一种发音网络的另一种匹配示意图;
图9示出了本发明实施例一种文本匹配设备的模块示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例一种文本匹配方法的实现流程示意图。
参见图1,本发明实施例一方面提供一种文本匹配方法,方法包括:步骤101,基于语音识别获得对应声音信号的词序列和音素序列;步骤102,通过动态规划寻找词序列和音素序列的最优匹配结果;步骤103,基于最优匹配结果输出对应声音信号的指定文本。
本发明实施例提供的文本匹配方法用于对声音信号进行语音识别,输出对应声音信号的指定文本。其中,指定文本为包括至少两种文本类型的文本,文本类型包括发音内容和文字内容,其中发音内容用于表征声音信号的发音情况,发音内容可以为拼音信息、音标注释等;文字内容用于表征用声音信号的含义,如中文内容、外文内容、翻译内容、特殊符号等。如根据声音信号的不同,指定文本可以包括中文信息和拼音注释;指定文本也可以包括外文信息和音标注释,指定文本还可以为对应声音信号的翻译文本和音标信息,以下不做赘述。应用本发明实施例提供的文本匹配方法,在输出的指定文本中,指定文本中的发音内容和文字内容能够对应,即文本类型能够对应;其中,发音内容可以根据实际情况进行调整,指定文本既可以为用户实际发音内容和文字内容对应,也可以为标准发音与文字内容对应。
本方法包括,基于语音识别获得对应声音信号的词序列和音素序列,声音信号可以来自录音音频,也可以来自实时采集的音频。声音信号可以采用语音识别系统进行处理,获得对应声音信号内容的文本序列和对应声音信号发音的音素序列,文本序列中包括多个词序列。音素序列中包括多个音素,音素为声学建模单元。文本序列与输出的文字内容对应,音素序列与输出的发音内容对应。
语音识别系统可以为weighted finite-state transducers(WFST)的语音识别系统,通过该语音识别系统搜索,可以获取到文本序列以及音素序列。利用文本序列中的词序列和音素序列中的音素进行匹配,能够按需求帮助多发音词拼音输出的确定。基于WFST的语音识别系统可以获得文本序列和对应的音素序列,但是由于WFST的语音识别系统的特性,无法将音素与文本中的单个字或词对应。例如,当得到的文本序列为“思必驰”,得到的音素序列为“s,i1,b,i4,ch,i2”时,无法将每个字对应的音素进行对应。仍需要进行进一步的匹配。
本方法还包括通过动态规划寻找词序列和音素序列的最优匹配结果。利用动态规划将文本序列与音素序列的对应问题划分为词序列与音素的对应问题,通过确定词序列与音素序列的对应关系,然后合并词序列与音素序列的对应关系,能够得到对应文本序列与音素序列的最优匹配结果。通过动态规划寻找音素序列与词序列的最优匹配度,即使发音字典与音素序列有一定数量的偏差,也能匹配到最优的结果,从而解决文本序列与音素序列的匹配问题。
本方法还包括基于最优匹配结果输出对应声音信号的指定文本。在获得最优匹配结果后,依据最优匹配结果将文本序列中的词序列和音素序列中的音素进行一一对应,将对应后的序列转化成文本输出,即可获得指定文本。指定文本中具有发音内容和文字内容,且发音内容和文本内容对应。例如,当文本序列为“思必驰”,得到的音素序列为“s,i1,b,i4,ch,i2”时,在输出的指定文本上,能够获得“思”对应“si1”、“比”对应“bi4”、“驰”对应“chi2”的文本内容,前述1、4、2指代声调。
图2示出了本发明实施例一种文本匹配方法动态规划的实现流程示意图。
参见图2,在本发明实施例中,步骤102,通过动态规划寻找词序列和音素序列的最优匹配结果,包括:步骤1021,基于发音字典构建词序列的发音网络,发音网络包括N个发音节点和发音路径,发音路径用于连接N个发音节点;步骤1022,基于发音路径,对发音节点与音素序列进行匹配,获得匹配结果集,匹配结果集中包括多个匹配结果;步骤1023,根据多个匹配结果确定最优匹配结果。
通过动态规划寻找词序列和音素序列的最优匹配结果的方法,包括,基于发音字典构建词序列的发音网络,发音网络包括N个发音节点和发音路径,发音路径用于连接N个发音节点。其中,N可以是2及2以上的数量。发音字典包含了从词序列到音素序列之间的映射,作用是用来连接声学模型和语言模型的。发音字典包含设备所能处理的词序列的集合,并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作。其中,发音字典可以用词对应标准发音数据作为训练数据进行训练,也可以使用词对应日常发音数据作为训练数据进行训练,还可以使用词对应标准发音数据和日常发音数据结合作为训练数据进行训练。例如,对应“自怨自艾”的训练数据可以使用标准发音数据“z,i4,y,u,an4,z,i4,y,i4”进行训练;对应“自怨自艾”的训练数据也可以使用日常发音数据“z,i4,y,u,an4,z,i4,a,i4”进行训练,前述数字4指代声调。通过发音字典,能够将词序列转换为对应词序列的参考发音,基于参考发音,可以构建对应词序列的发音网络,发音网络包括多个发音节点和发音路径。
其中,发音节点为与音素单位对应的音素单位,例如,当词序列为“召开”时,对应的参考发音为“zh,ao4,k,ai1”,由参考发音构建的发音网络中,发音节点包括“zh”,“ao4”,“k”,“ai1”。而发音路径为“zh”-“ao4”-“k”-“ai1”。前述数字4和1指代声调。需要说明的是,相邻词序列的发音路径为同一条发音路径,如词序列为“天气”、“好”,其中“天气”对应的发音节点为“t”,“i”,“an1”,“q”,“i4”,“好”对应的发音节点为“h”,“ao3”,则发音路径可以为“t”-“i”-“an1”-“q”-“i4”-“h”-“ao3”。即基于发音字典构建词序列的发音网络中,一条发音路径对应的词序列的数量可以为1也可以为大于1。
本方法还包括,基于发音路径,对发音节点与音素序列进行匹配,获得匹配结果集,匹配结果集中包括多个匹配结果。
如图3所示,图3用于表示一句话对应的发音网络,其中有两个词,即对应两个词序列:W1和W2。其中,词序列W1的发音是q1,q2,q3。W2的发音为q4,根据发音字典构建中的发音网络,其中的连接线为对应的发音路径,位于连接线上的每一个节点为对应的发音节点,用于表示词序列对应的参考发音的一个位置。图中,位于每一个节点上的表格代表着发音节点与音素序列不同位置进行匹配,位于表格左侧的起始、q1、q2、q3、q4,用于表示音素序列,位于音素序列左侧的0、1、2、3、4用于对表格进行标记以方便下述说明,位于表格中的数字表示词序列不同位置对应音素序列不同位置的匹配结果,匹配结果用于表示发音节点不同位置和音素序列不同位置不同程度的匹配度。例如,当对应0节点的表格中第一列数字为0时,表示0节点和音素序列的第0位置完全匹配,即起始位置,当对应0节点的表格中第一列数字不等于0时,表示0节点和其他位置不完全匹配,数字越大,表示匹配度越差。主要由匹配结果组成匹配结果集。
在获得匹配结果集后,本方法还包括根据多个匹配结果确定最优匹配结果。具体的,通过对整个发音路径上的发音节点的匹配结果集进行处理,即可获取对应发音网络不同位置的最优匹配结果,然后回溯对应发音网络不同位置的最优匹配结果,获得对应词序列和音素序列的最优匹配结果。
图4示出了本发明实施例一种文本匹配方法编辑距离匹配的实现流程示意图。
参见图4,在本发明实施例中,步骤1021,基于发音路径,对发音节点与音素序列进行匹配,获得匹配结果集,包括:步骤10211,基于发音路径确定N个发音节点的位置;步骤10212,计算第一位置发音节点与音素序列不同位置的编辑距离,获得对应音素序列不同位置的第一编辑距离集;步骤10213,基于第一编辑距离,计算第一位置和第二位置发音节点与音素序列不同位置的编辑距离,获得对应音素序列不同位置的第二编辑距离集;步骤10214,以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与音素序列不同位置的编辑距离,获得对应音素序列不同位置的第N编辑距离集。
基于词序列经过发音字典构建的发音网络包括多个发音节点,且音素序列中包括多个音素,需要将词序列的不同位置和音素序列的不同位置进行匹配,以确定与词序列匹配度最高的音素序列,匹配度通过编辑距离衡量,编辑距离越小,词序列匹配度最高的音素序列的相似度越大。在确定发音节点和音素的最小编辑距离后,通过对发音路径上的发音节点的最小编辑距离进行回溯,能够获得对应词序列不同位置的最小编辑距离,从而获得最优的回溯路径。
如图3所示,表格内每个数字对应的是词序列在该发音节点位置和音素序列不同位置的编辑距离。编辑距离选为莱文斯坦距离,莱文斯坦距离能够用来描述两个序列差异的指标。序列a和序列b的编辑距离可由如下公式(1)表示。
Figure GDA0003799570670000121
其中i与j分别表示在序列a与b中的位置,1(ai≠bj)表示序列a的i位置和序列b的j位置相等的时候为0,不等为1。具体的,应用在本方法中时,序列a和序列b分别用于表示对应词序列的发音序列和音素序列。i和j分别表示发音序列中的发音节点和音素序列中的音素。
为方便理解,将图3中的音素序列定为s,发音序列定为p,每列表格的第一列标记为0列,第二列标记为1列,以此类推进行说明。在0发音节点0列,起始的编辑距离为0,代表起始时音素与词序列的发音节点完全匹配,即levs,p(0,0)=0。0节点的其他列代表跳过音素序列相应的音素而不匹配任何发音时引入的匹配错误数,即对应levs,p1,0…levs,p(4,0)。即当将每一个发音节点与音素序列中的多个音素进行匹配过程中,当获得音素与词序列的发音节点完全匹配时,可以不进行其他音素与该发音节点的匹配。将发音节点向前进q1时,即至1节点时,如果同时将音素序列的匹配位置前进1,即1节点和音素q1匹配,那么因为此处音素和发音相同,增加的编辑距离为0,即levs,p(0,0)+1a0≠b0=0,在1节点对应的列表的1列记上0。从0节点到1节点,如果跳过了1节点的发音匹配,这时音素的配置仍停留在起始位置,对发音节点的匹配已经前进到2节点的位置,跳过1节点的发音匹配造成了1节点的编辑距离变成1,所以在1节点对应的列表的0列记上1,代表levs,p0,1=1。需要说明的是,需要将词序列的不同位置指代的是词序列该位置及该位置之前,由发音路径所连接的所有发音节点,例如当发音节点为q1、q2、q3、q4时,当描述为词序列第三位置时,其指代的发音节点为q1、q2、q3。即第一位置、第二位置和第三位置的发音节点。音素序列同理,音素序列的不同位置指代的是音素序列该位置及该位置之前的所有音素,例如当音素为q1’、q2’、q3’、q4’时,当描述音素序列的第三位置时,其指代的音素为q1’、q2’、q3’。即第一位置、第二位置和第三位置的音素。以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与音素序列不同位置的编辑距离。N选为大于等于2。
图5示出了本发明实施例一种文本匹配方法路径回溯的实现流程示意图。
参见图5,在本发明实施例中,每一个编辑距离均记录有对应的来源信息,在第N编辑距离集中,对应音素序列最后一个位置的第N编辑距离为最优第N编辑距离;步骤1023,根据多个匹配结果确定最优匹配结果,包括:步骤10231,通过对应最优第N编辑距离的来源信息确定对应最优第N编辑距离的最优第N-1编辑距离;步骤10232,以此类推,通过对应最优第二编辑距离的来源信息确定最优第一编辑距离;步骤10233,将最优第一编辑距离对应至起始编辑距离;步骤10234,基于起始编辑距离至最优第N编辑距离确定回溯路径;步骤10235,将回溯路径确定为最优匹配结果。
其中,来源信息为对于不同位置发音节点与音素序列不同位置进行编辑距离集进行计算时,获得该位置编辑距离的来源信息。其中编辑距离集中的每个编辑距离都会计算三个来源的编辑距离,三个来源分别为1、以第一位置至前一位置发音节点与音素序列对应的当前位置的编辑距离作为来源信息;2、以第一位置至前一位置发音节点与音素序列对应的前一位置作为来源信息;3、以第一位置至当前位置发音节点与音素序列对应的前一位置作为来源信息。需要补充的是,起始编辑距离预设为“0”,第一编辑距离以起始编辑距离作为来源信息。进一步的,当音素序列的位置为第一位置时,来源信息可能少于三个。选择最小的编辑距离作为该发音节点所对应的音素序列其中一个位置的最佳编辑距离。
为方便理解,以第三编辑距离的计算为例,当计算第一位置至第三位置发音节点与音素序列第三位置的编辑距离时,三个来源可以是:来源一,由第一位置和第二位置发音节点和音素序列第三位置进行计算获得的编辑距离为来源信息,将第一位置、第二位置发音节点与音素序列第二位置的编辑距离加1,获得编辑距离一。来源二,由第一位置、第二位置发音节点与音素序列的第二位置的编辑距离作为来源信息,当第三位置发音节点与第三位置音素不同时,将第一位置、第二位置发音节点与音素序列第二位置的编辑距离加1,当第三位置发音节点与第三位置音素相同时,将第一位置、第二位置发音节点与音素序列第二位置的编辑距离加0,获得编辑距离二。来源三,由第一位置至第三位置发音节点与音素序列第二位置的编辑距离作为来源信息,将由第一位置至第三位置发音节点与音素序列第二位置的编辑距离加1,获得编辑距离三。比较编辑距离一、编辑距离二和编辑距离三的大小,将编辑距离最小的数值确定为第一位置至第三位置发音节点与音素序列第三位置的编辑距离。
在图3中,以2节点为例,在一种情况下,对应的音素序列匹配到q2位置,得到2节点位置和音素序列位置完全匹配,在2节点对应的列表3列的编辑距离记为0。在另一种情况下,如果跳过音素q1,同时跳过1节点,则编辑距离为2,即从0节点的第2列的位置,代表已经跳过音素q1的情况,再跳过0到2节点之间1节点,即levs,p(1,0)+1=2,所以2节点对应的列表0列的编辑距离记为2。在还有一种情况下,从1节点的第一列的位置,代表已经跳过发音q1的情况,再跳过音素q1,即levs,p(0,1)+1=2。取这三种情况的最小编辑距离可以作为这个位置代表的最优编辑距离,并记录下这个位置编辑距离的来源。如图中虚线箭头指向0节点0列,所以在1节点对应的列表1列记上0,即levs,p(1,1)=0。其他节点的过程类似。依上述的方式,可以计算出图中所有发音节点的编辑距离。最后匹配至4节点之后,对发音路径上的编辑距离进行整合,得到最终的编辑距离。节点4列表中最后一列即为音素序列与句子各种可能发音的最小编辑距离。在构建的发音网络正常包含音素序列对应的发音节点的时候,最小编辑距离会为0,代表词序列和音素序列完全匹配。
由于实际情况下,涉及到多音字词或者其他不同发音类型的情况很多。在进行指定文本中发音内容的输出时,需要用户发音决定需要选择哪一个发音。在多音字词或者其他不同发音类型的情况下,发音网络中的发音路径的数量会大于1条,获得的累计匹配结果的数量也会大于1个,因此,需要根据匹配过程中的发音路径回溯,获得与音素序列相匹配的发音路径,即对应最小累计编辑距离的发音路径。
如图6所示,图6用于表示另一句话对应的发音网络,其中该句话有两个词,W1和W2。W1的发音有两种,一个是q1,q2,q3,另一个为q5,q1,q2。W2的发音为q4。根据发音字典构建的如发音网络如图6所示。从0节点至3节点,因为W1有两种发音,所以有经过1,2节点至3节点和经过5,6节点至3节点两条路径。通过两条不同路径至3节点会得到两列不同的编辑距离。但由于节点3就代表W1匹配结束,两条路径的编辑距离在此会做合并然后再去匹配后续的发音,合并的规则为选取每个音素位置的最小的编辑距离作为该节点该音素位置的最终编辑距离。并从所取的结果集中对应位置继承编辑距离的来源信息。
根据匹配过程中的路径回溯,可得知究竟是哪条发音路径与音素序列相匹配。如图中的箭头所示。即可知该句的实际发音为q1,q2,q3对应W1,q4对应W2。
图7示出了本发明实施例一种文本匹配方法匹配过程的实现流程示意图。
参见图7,在本发明实施例中,在基于发音路径,对发音节点与音素序列进行匹配,获得匹配结果集的过程中,方法还包括:步骤701,将发音节点与音素序列中的当前位置进行匹配,获得当前编辑距离;步骤702,判断当前位置编辑距离是否超出编辑距离阈值;步骤703,当判断为当前位置编辑距离超出编辑距离阈值时,停止将发音节点与音素序列中的剩余位置进行匹配。
由于匹配的过程中,编辑距离只会增大而不会减小,所以对于匹配过程中一些位置发现编辑距离已经过大可以提前放弃。这个可以由固定的编辑距离的阈值或者根据音素序列的长短动态调整。这样可以减少一些匹配的计算。例如如果认为编辑距离相差大于1即为过大,那如图8所示,图8中相当多的编辑距离可以省去不再计算,在图8中,不再计算的编辑距离由X表示。
为进行上述实施例的优化,以下提供一种具体的优化场景。在由发音字典构建的发音网络的发音路径上,实际的输出可以不是发音对应的拼音。在构建发音的网络时某一发音路径对应的拼音输出可以根据需求修改。针对需要输出标准拼音的系统,可以匹配时用上各种模糊的发音,而路径的输出标记上正确的发音。这时正常的匹配到模糊的发音,再在回溯时依照网络上的标记输出正确的发音即可。即通过该优化,能够对用户的错误发音进行修正,输出的指定文本中,包括文本内容和对应文本内容的标准发音。在另一种优化情况下,当希望输出多种对应声音信号的标识时,例如当声音信号为“www”,希望输出3W和www两种标识的情况,也只需要构建发音网络的时候将不同发音路径的输出标记为不同的标记即可区分。
在还有一种情况下,以输出中文文本和拼音内容的情况为例,当声音信号中包含英文,识别系统识别出英文单词,英文发音对拼音匹配系统不可见,只要在发音网络中构建一条空边代表这个英文单词的发音路径。计算编辑距离时直接将代表这个英文单词的发音路径的起始节点的编辑距离直接传递到目的节点上,并记录实际通过了一段英文。即,根据上述的算法可以跳过该未知的发音,在后续依然能够正确匹配后续其他已知发音的中文字词。到最后只需找到最优的编辑距离,通过发音路径回溯其来源,在输出文本中,这段英文的文本能以正常的位置英文原样输出,并且其他的文本内容和发音内容也能较好的匹配。例如,当声音信号为“hi你好”,获得对应该声音信号的词序列和音素序列,在通过动态规划寻找词序列和音素序列的最优匹配结果的过程中,“hi”对应的序列,计算编辑距离时直接将代表“hi”的发音路径的起始节点的编辑距离直接传递到目的节点上,而“你好”对应的序列,进行编辑距离的计算,由此得到的输出文本中,“hi”不进行拼音标注,而“你”对应有“ni”的拼音标注,“好”对应有“hao”的拼音标注。
图9示出了本发明实施例一种文本匹配设备的模块示意图。
参见图9,本发明实施例另一方面提供一种文本匹配设备,设备包括:识别模块901,用于基于语音识别获得对应声音信号的词序列和音素序列;寻找模块902,用于通过动态规划寻找词序列和音素序列的最优匹配结果;输出模块903,用于基于最优匹配结果输出对应声音信号的指定文本。
在一可实施方式中,寻找模块902,包括:基于发音字典构建词序列的发音网络,发音网络包括N个发音节点和发音路径,发音路径用于连接N个发音节点;基于发音路径,对发音节点与音素序列进行匹配,获得匹配结果集,匹配结果集中包括多个匹配结果;根据多个匹配结果确定最优匹配结果。
在一可实施方式中,在寻找模块902中,基于发音路径,对发音节点与音素序列进行匹配,获得匹配结果集,还包括:基于发音路径确定N个发音节点的位置;计算第一位置发音节点与音素序列不同位置的编辑距离,获得对应音素序列不同位置的第一编辑距离集;基于第一编辑距离,计算第一位置和第二位置发音节点与音素序列不同位置的编辑距离,获得对应音素序列不同位置的第二编辑距离集;以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与音素序列不同位置的编辑距离,获得对应音素序列不同位置的第N编辑距离集。
在一可实施方式中,每一个编辑距离均记录有对应的来源信息,在第N编辑距离集中,对应音素序列最后一个位置的第N编辑距离为最优第N编辑距离;寻找模块902,包括:通过对应最优第N编辑距离的来源信息确定对应最优第N编辑距离的最优第N-1编辑距离;以此类推,通过对应最优第二编辑距离的来源信息确定最优第一编辑距离;将最优第一编辑距离对应至起始编辑距离;基于起始编辑距离至最优第N编辑距离确定回溯路径;将回溯路径确定为最优匹配结果。
在一可实施方式中,寻找模块902,还包括:将发音节点与音素序列中的当前位置进行匹配,获得当前编辑距离;判断当前位置编辑距离是否超出编辑距离阈值;当判断为当前位置编辑距离超出编辑距离阈值时,停止将发音节点与音素序列中的剩余位置进行匹配。
本发明实施例另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的文本匹配方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种文本匹配方法,其特征在于,所述方法包括:
基于语音识别获得对应声音信号的词序列和音素序列;
基于发音字典构建所述词序列的发音网络,所述发音网络包括N个发音节点和发音路径,所述发音路径用于连接所述N个发音节点;
基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,所述匹配结果集中包括多个匹配结果;
根据所述多个匹配结果确定最优匹配结果;
基于所述最优匹配结果输出对应所述声音信号的指定文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,包括:
基于所述发音路径确定N个发音节点的位置;
计算第一位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第一编辑距离集;
基于第一编辑距离,计算第一位置和第二位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第二编辑距离集;
以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第N编辑距离集。
3.根据权利要求2所述的方法,其特征在于,每一个编辑距离均记录有对应的来源信息,在所述第N编辑距离集中,对应音素序列最后一个位置的第N编辑距离为最优第N编辑距离;
所述根据所述多个匹配结果确定最优匹配结果,包括:
通过对应最优第N编辑距离的来源信息确定对应所述最优第N编辑距离的最优第N-1编辑距离;
以此类推,通过对应最优第二编辑距离的来源信息确定最优第一编辑距离;
将所述最优第一编辑距离对应至起始编辑距离;
基于起始编辑距离至最优第N编辑距离确定回溯路径;
将所述回溯路径确定为最优匹配结果。
4.根据权利要求1所述的方法,其特征在于,在基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集的过程中,所述方法还包括:
将发音节点与所述音素序列中的当前位置进行匹配,获得当前编辑距离;
判断当前位置编辑距离是否超出编辑距离阈值;
当判断为当前位置编辑距离超出编辑距离阈值时,停止将发音节点与所述音素序列中的剩余位置进行匹配。
5.一种文本匹配设备,其特征在于,所述设备包括:
识别模块,用于基于语音识别获得对应声音信号的词序列和音素序列;
寻找模块,用于基于发音字典构建所述词序列的发音网络,所述发音网络包括N个发音节点和发音路径,所述发音路径用于连接所述N个发音节点;
基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,所述匹配结果集中包括多个匹配结果;
根据所述多个匹配结果确定最优匹配结果;
输出模块,用于基于所述最优匹配结果输出对应所述声音信号的指定文本。
6.根据权利要求5所述的设备,其特征在于,在所述寻找模块中,基于所述发音路径,对所述发音节点与所述音素序列进行匹配,获得匹配结果集,还包括:基于所述发音路径确定N个发音节点的位置;计算第一位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第一编辑距离集;基于第一编辑距离,计算第一位置和第二位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第二编辑距离集;以此类推,直至基于第N-1编辑距离,计算第一位置至第N位置发音节点与所述音素序列不同位置的编辑距离,获得对应所述音素序列不同位置的第N编辑距离集。
7.根据权利要求6所述的设备,其特征在于,每一个编辑距离均记录有对应的来源信息,在所述第N编辑距离集中,对应音素序列最后一个位置的第N编辑距离为最优第N编辑距离;所述寻找模块,包括:通过对应最优第N编辑距离的来源信息确定对应所述最优第N编辑距离的最优第N-1编辑距离;以此类推,通过对应最优第二编辑距离的来源信息确定最优第一编辑距离;将所述最优第一编辑距离对应至起始编辑距离;基于起始编辑距离至最优第N编辑距离确定回溯路径;将所述回溯路径确定为最优匹配结果。
8.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-4任一项所述的文本匹配方法。
CN201911412090.4A 2019-12-31 2019-12-31 一种文本匹配方法、设备及计算机可读存储介质 Active CN111105787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911412090.4A CN111105787B (zh) 2019-12-31 2019-12-31 一种文本匹配方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911412090.4A CN111105787B (zh) 2019-12-31 2019-12-31 一种文本匹配方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111105787A CN111105787A (zh) 2020-05-05
CN111105787B true CN111105787B (zh) 2022-11-04

Family

ID=70425453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911412090.4A Active CN111105787B (zh) 2019-12-31 2019-12-31 一种文本匹配方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111105787B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270922B (zh) * 2020-10-20 2022-08-02 云南电网有限责任公司迪庆供电局 一种调度日志自动化填写方法及装置
CN112988965B (zh) * 2021-03-01 2022-03-08 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128132A1 (en) * 2002-12-30 2004-07-01 Meir Griniasty Pronunciation network
EP1618556A1 (en) * 2003-04-30 2006-01-25 Loquendo S.p.A. Grapheme to phoneme alignment method and relative rule-set generating system
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN110148427B (zh) * 2018-08-22 2024-04-19 腾讯数码(天津)有限公司 音频处理方法、装置、系统、存储介质、终端及服务器
CN109754809B (zh) * 2019-01-29 2021-02-09 北京猎户星空科技有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111105787A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN107016994B (zh) 语音识别的方法及装置
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
CN102176310B (zh) 具有巨大词汇量的语音识别系统
KR101413327B1 (ko) 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템
CN111105787B (zh) 一种文本匹配方法、设备及计算机可读存储介质
CN111292740B (zh) 语音辨识系统及其方法
US20110238412A1 (en) Method for Constructing Pronunciation Dictionaries
Kenny et al. A*-admissible heuristics for rapid lexical access
CN106503231B (zh) 基于人工智能的搜索方法和装置
JPS5991500A (ja) 音声分析器
CN112489626B (zh) 一种信息识别方法、装置及存储介质
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN111552777B (zh) 一种音频识别方法、装置、电子设备及存储介质
WO2007069762A1 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
CN112216267B (zh) 一种韵律预测的方法、装置、设备及存储介质
JP2002215187A (ja) 音声認識方法及びその装置
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR20090063546A (ko) 음성인식 장치 및 방법
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
CN112530405A (zh) 一种端到端语音合成纠错方法、系统及装置
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
CN115545013A (zh) 用于对话场景的音似纠错方法及装置
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Building 14, Tengfei science and Technology Park, 388 Xinping street, Suzhou Industrial Park, Suzhou area, China (Jiangsu) pilot Free Trade Zone, Suzhou, Jiangsu 215000

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant