CN112988955B - 多语语音识别及主题语意分析方法与装置 - Google Patents
多语语音识别及主题语意分析方法与装置 Download PDFInfo
- Publication number
- CN112988955B CN112988955B CN201911216220.7A CN201911216220A CN112988955B CN 112988955 B CN112988955 B CN 112988955B CN 201911216220 A CN201911216220 A CN 201911216220A CN 112988955 B CN112988955 B CN 112988955B
- Authority
- CN
- China
- Prior art keywords
- pinyin
- vocabulary
- multilingual
- semantic
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000006243 chemical reaction Methods 0.000 claims 8
- 230000001502 supplementing effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 8
- 241001672694 Citrus reticulata Species 0.000 description 4
- 241001575999 Hakka Species 0.000 description 3
- 235000016278 Mentha canadensis Nutrition 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种多语语音识别及主题语意分析方法,包含通过语音识别器执行:依据语音对照表取得对应于语音输入信号的拼音字符串,依据多语词汇集判断该拼音字符串对应于多个原始词,并依据多语词汇集及所述多个原始词形成一语句,且包含通过语意分析器执行:依据语句及主题词汇语意关系数据集选择性地执行矫正流程、执行分析状态判断流程或输出语句,在判断矫正流程成功时,输出经矫正后的该语句,而在判断矫正流程失败时,执行分析状态判断流程以选择性地输出判断结果。
Description
技术领域
本发明涉及一种语音识别方法,特别涉及一种多语语音识别方法。
背景技术
语音识别技术的目标在于将人类的语音内容转换为相应的语句,其应用广泛,包含语音拨号、语音导航、室内装置控制、听写数据记录等。随着全球化的发展,不同国籍人士间的互动日渐频繁,在对话当中时常会有混合多种语言的表达方式,因此多种语言之语音识别装置的需求也日益增加。除了多种语言的挑战,用户不够精确的发音也会导致装置取得的转换语句结果并不符于使用者欲表达的语意。
发明内容
鉴于上述,本发明提供一种多语语音识别及主题语意分析方法与装置。
依据本发明一实施例的多语语音识别及主题语意分析方法,包含通过语音识别器执行:依据语音对照表取得对应于语音输入信号的拼音字符串,依据多语词汇集判断该拼音字符串对应于多个原始词,并依据多语词汇集及所述多个原始词形成一语句,且包含通过语意分析器执行:依据语句及主题词汇语意关系数据集选择性地执行矫正流程、执行分析状态判断流程或输出语句,在判断矫正流程成功时,输出经矫正后的该语句,而在判断矫正流程失败时,执行分析状态判断流程以选择性地输出判断结果。
依据本发明一实施例的多语语音识别及主题语意分析装置,包含语音输入接口、输出接口及处理器。语音输入接口用于接收语音输入信号。输出接口用于输出语句、经矫正后的语句或判断结果。处理器连接于语音输入接口及输出接口,且包含彼此连接的语音识别器及语意分析器。语音识别器用于依据语音对照表取得对应于语音输入信号的拼音字符串,依据多语词汇集判断该拼音字符串对应于多个原始词,依据多语词汇集及所述多个原始词形成语句。语意分析器用于依据语句及主题词汇语意关系数据集选择性地执行矫正流程、执行分析状态判断流程或输出语句,在判断矫正流程成功时,输出经矫正后的该语句,而在判断矫正流程失败时,执行分析状态判断流程以选择性地输出判断结果。
通过上述架构,本案所公开的多语语音识别及主题语意分析方法与装置,结合特殊的语音识别及主题语意分析技术,借此可以提升将语音内容转换为相应语句的准确率。
以上关于本公开内容的说明及以下实施方式的说明用以示范与解释本发明的精神与原理,并且提供本发明的权利要求范围更进一步的解释。
附图说明
图1是依据本发明一实施例所绘示的多语语音识别及主题语意分析装置的功能方框图。
图2是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的流程图。
图3是依据本发明一实施例所绘示的语音对照表的示意图。
图4是依据本发明一实施例所绘示的多语词汇集的示意图。
图5是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的部分流程图。
图6是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的部分流程图。
图7是依据本发明一实施例所绘示的主题词汇语意关系数据集的示意图。
图8是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的部分流程图。
图9是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的矫正流程的流程图。
【附图标记列表】
1 多语语音识别及主题语意分析装置
11语音输入接口
13输出接口
15处理器
151语音识别器
153语意分析器
2内存
21多语语料库
23多语词汇辞典
25第一主题词汇语意关系数据库
27第二主题词汇语意关系数据库
G1~G4词意组
M1第一语言词意
M2第二语言词意
L1~L5语言
具体实施方式
以下在实施方式中详细叙述本发明的详细特征以及优点,其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施,且根据本说明书所公开的内容、权利要求书及图式,任何本领域技术人员可轻易地理解本发明相关的目的及优点。以下的实施例进一步详细说明本发明的观点,但非以任何观点限制本发明的范围。
请参考图1,图1为依据本发明一实施例所绘示的多语语音识别及主题语意分析装置1的功能方框图。多语语音识别及主题语意分析装置1包含语音输入接口11、输出接口13及处理器15。语音输入接口11例如为麦克风等收音器,用于接收语音输入信号,其中,所谓语音输入信号例如是由用户发出的声音波形所形成。输出接口13则用于输出对应于语音输入信号的语句,其中语句由处理器15所产生,产生方法将于后描述。举例来说,输出接口13为显示器,可以将语句显示于显示器的画面上。举另个例子来说,输出接口13为有线或无线连接接口,可以连接于装置内部存储器或远程内存,以将语句储存起来,或者可以连接于控制器,控制器可以依据语句产生控制指令以控制一个或多个被控装置,即声控的应用。
处理器15例如为中央处理器、微控制器、可编程逻辑控制器等,连接于语音输入接口11及输出接口13。处理器15可以对语音输入接口11所接收的语音输入信号进行语音识别及语意分析,以产生对应于此语音输入信号的语句。如图1所示,处理器15可以包含语音识别器151以及语意分析器153分别执行语音识别及语意分析。在一实施例中,语音识别器151及语意分析器153分别为两个彼此电性连接的硬件(例如中央处理器、微控制器、可编程逻辑控制器等)。在另一实施例中,语音识别器151及语意分析器153为由单个硬件(例如中央处理器、微控制器、可编程逻辑控制器等)所执行的两个固件或软件。
如上所述,语音识别器151用于执行语音识别。进一步来说,语音识别器151可以依据语音对照表取得对应于前述由语音输入接口11所接收的语音输入信号的拼音字符串,依据多语词汇集判断此拼音字符串对应于多个原始词,并且依据多语词汇集及这些原始词来形成一语句。在语音识别器151执行完语音识别(即上述的基于语音输入信号形成语句的流程)而取得语句后,语意分析器153便会再对此语句进行语意分析。进一步来说,语意分析器153可以依据主题词汇语意关系数据集选择性地执行矫正流程、分析状态判断流程或是直接输出语音识别器151所产生的语句。语意分析器153在判断矫正流程成功时,会输出经矫正后的语句,而在判断矫正流程失败时,则会执行分析状态判断流程。其中,矫正流程以及分析状态判断流程的执行内容将于后描述。
在图1所示的实施例中,上述的语音对照表、多语词汇集及主题词汇语意关系数据集可以储存于内存2中,处理器15可以连接于内存2以取得上述数据来进行语音识别及语意分析。如图1所示,内存2可以包含多语语料库21、多语词汇辞典23、第一主题词汇语意关系数据库25及第二主题词汇语意关系数据库27。其中,多语语料库21储存有语音对照表;多语词汇辞典23储存有多语词汇集;第一主题词汇语意关系数据库25储存有第一语言的主题词汇语意关系数据集,例如中文主题词汇语意关系数据集;第二主题词汇语意关系数据库27则储存有第二语言的主题词汇语意关系数据集,例如英文主题词汇语意关系数据集。在此特别说明的是,图1示例性地绘示内存2具有两个主题词汇语意关系数据库,然而在其他实施例中,内存2可以具有上述两主题词汇语意关系数据库的其中一个,或是具有更多种语言的主题词汇语意关系数据库,本发明不予限制。
上述的多语语料库21、多语词汇辞典23、第一主题词汇语意关系数据库25及第二主题词汇语意关系数据库27可以由一个或多个非挥发性储存介质(例如闪存、只读存储器、磁性内存等)组成。举例来说,多语语料库21、多语词汇辞典23、第一主题词汇语意关系数据库25及第二主题词汇语意关系数据库27可以各为独立设置的非挥发性储存介质。举另个例子来说,多语语料库21、多语词汇辞典23、第一主题词汇语意关系数据库25及第二主题词汇语意关系数据库27可以为同个非挥发性储存介质中的不同扇区,或是由计算机程序所定义的多个储存区块。本发明并不限制组成内存2的非挥发性储存介质的数量,亦不限制语音对照表、多语词汇集及主题词汇语意关系数据集是储存于内存2的哪个或哪些非挥发性储存介质中。在图1所示的实施例中,内存2可以位于相对于多语语音识别及主题语意分析装置1为远程的内存(例如云端硬盘),可以通信连接于处理器15。在另一实施例中,内存2可以包含于多语语音识别及主题语意分析装置1,亦即多语语音识别及主题语意分析装置1可以还包含内存2,且内存2可以电性连接于处理器15。
请一并参考图1及图2,其中图2是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的流程图。图2所示的多语语音识别及主题语意分析方法可适用于图1所示的多语语音识别及主题语意分析装置1,以下描述多语语音识别及主题语意分析装置1执行多语语音识别及主题语意分析方法的多个实施方式,然而本发明所提的多语语音识别及主题语意分析方法并不限于由图1所示的装置架构来实行。
在步骤S1中,多语语音识别及主题语意分析装置1通过语音识别器151依据语音对照表,取得对应于语音输入信号的拼音字符串。在步骤S2中,多语语音识别及主题语意分析装置1通过语音识别器151依据多语词汇集,判断拼音字符串对应于多个原始词。在步骤S3中,多语语音识别及主题语意分析装置1通过语音识别器151依据多语词汇集及所述多个原始词形成语句。在步骤S4中,多语语音识别及主题语意分析装置1通过语意分析器153依据主题词汇语意关系数据集,选择性地执行矫正流程、执行分析状态判断流程或是输出语句。当语意分析器153依据主题词汇语意关系数据集产生的分析结果符合条件C1时,会选择执行步骤S5:输出语句;当分析结果符合条件C2时,会选择执行步骤S6:执行分析状态判断流程;当分析结果符合条件C3时,则会选择执行步骤S7:执行矫正流程。其中,条件C1~C3的详细内容将于后说明。在步骤S7执行矫正流程之后,在步骤S8中,多语语音识别及主题语意分析装置1通过语意分析器153判断矫正流程是否成功。当矫正流程成功时,在步骤S9中,多语语音识别及主题语意分析装置1的语意分析器153输出经矫正后的语句至输出接口13,输出接口13再将矫正后的语句输出(例如显示于屏幕上)。当矫正流程失败时,多语语音识别及主题语意分析装置1便会执行步骤S6以通过语意分析器153执行分析状态判断流程,并选择性地输出判断结果。其中,矫正流程及分析状态判断流程的实行内容将于后描述。
进一步说明步骤S1:通过语音识别器151依据语音对照表,取得对应于语音输入信号的拼音字符串,语音识别器151可以判断语音输入接口11所接受的语音包含多个发音,并将发音与语音对照表进行比对,以取得对应于声音的多个拼音所组成的拼音字符串。更进一步来说,语音对照表可以包含多个既存发音及其对应的拼音。请参考图3,图3是依据本发明一实施例所绘示的语音对照表的示意图。上述语音对照表可以图3的形式呈现,图3主要以国际拼音编码音标来编列与发音对照的多语语音识别的台罗拼音。进一步来说,在图3所示的语音对照表的字段中,记载于中括号([])中的音标为国际音标;接在中括号后的为通用台罗拼音;粗体的通用台罗拼音为现有台罗拼音系统所没有的拼音;斜体的通用台罗拼音为现有台罗拼音系统中既有但非标注此音的拼音;“ (None) ”表示通用台罗拼音不标出此音;被斜线(/)分开的表示清音/浊音,斜线左方为清音,右方则为浊音;没有被斜线分开的表示清音;被标记叉字记号的字段被认为是不可能的发音。
特别来说,图3所示的语音对照表除了台罗拼音系统既有的拼音之外,还至少提供一组特殊拼音组A1,包含对应于齿龈后音至卷舌音的多个拼音。进一步来说,特殊拼音组A1包含对应于齿龈后音至卷舌音的不送气塞擦音的拼音、对应于齿龈后音至卷舌音的送气塞擦音的拼音、对应于齿龈后音至卷舌音的擦音的拼音,以及对应于齿龈后音至卷舌音的近音的拼音。通过新增上述的特殊拼音组A1至现有台罗拼音系统,本发明所提的多语语音识别及主题语意分析方法,可以更精确地辨识汉语中普通话、闽南语或客家话的发音,进而提升语音识别阶段的准确率。
进一步说明图2的步骤S2:通过语音识别器151依据多语词汇集,判断拼音字符串对应于多个原始词,请一并参考图1、图2、图4及图5,其中图4是依据本发明一实施例所绘示的多语词汇集的示意图,图5则是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的部分流程图。本发明所提的多语词汇集包含多个词意组,每一词意组包含至少一语言的词意以及对应于至少一语言的拼音组合。如图4所示,多语词汇集可以包含词意组G1~G4,每个词意组G1、G2、G3或G4可以包含词性P、第一语言词意M1、第二语言词意M2以及属于多个语言L1~L5的拼音组合(后称既存拼音组合)。特别来说,图4所示的既存拼音组合基于图3所示的拼音而组成。在此实施例中,第一语言词意M1为中文词意,第二语言词意M2则为英文词意,语言L1~L3均为汉语,L4为英语,L5为日语,其中,L1~L3分别为汉语中的普通话、闽南语、客家话。举例来说,既存拼音组合[G1, L1]、[G1, L2]、[G1, L3]分别表示中文词意为“我”且英文词意为“I”的汉语发音,具体来说,[G1, L1]为汉语普通话发音,[G1,L2]为汉语中的闽南语发音,[G1, L3]为汉语中的客家话发音,[G1, L4]及[G1, L5]分别表示中文词意为“我”且英文词意为“I”的英语发音及日语发音。在此特别要说明的是,图4绘示多语词汇集包含四个词意组,且每个词意组包含两种语言词意及五个语言的拼音组合,然而以上数量仅为举例,本发明不以此为限。
图2所示的步骤S2可以包含图5所示的步骤S21~S29。在图5的实施例中,前述步骤S1所取得的拼音字符串假设由M个拼音组成,其中M为自然数。在步骤S21中,语音识别器151可以先设定待辨识拼音组合的前缀位置的数值为1,且其字尾位置的数值为M。换句话说,语音识别器151可以先将拼音字符串的第1到M个拼音设为待辨识拼音组合。接着在步骤S22中,语音识别器151判断多语词汇集中与待辨识拼音组合相符的既存拼音组合的数量。进一步来说,语音识别器151会从多语词汇集中搜寻与待辨识拼音组合一致的既存拼音组合。当语音识别器151判断相符的既存拼音组合的数量为零个时,语音识别器151执行步骤S23:将字尾位置的数值减1,此时待辨识拼音组合为拼音字符串的第1到M-1个拼音所组成。接着,语音识别器151再次执行步骤S22。特别来说,语音识别器151会不断执行步骤S22及S23直至从多语词汇集中搜寻到一个或多个既存拼音组合。
当语音识别器151判断多语词汇集中存在一个既存拼音组合符合于待辨识拼音组合时,语音识别器151会执行步骤S24:将所判断的既存拼音组合作为原始词,并取得字尾位置的数值。另一方面,当语音识别器151判断多语词汇集中同时存在多个既存拼音组合符合于待辨识拼音组合时,语音识别器151则会执行步骤S25:将所判断的多个既存拼音组合存入待确定词集,并取得字尾位置的数值。进一步地,语音识别器151还可以记录此待确定词集所对应的字头位置数值及字尾位置数值。所述待确定词集可以储存于处理器15包含或连接的缓存器或是内存2,本发明不予限制。
在步骤S26中,语音识别器151判断字尾位置的数值是否等于M。当语音识别器151判断字尾位置的数值不等于M时,表示还未判断完拼音字符串包含几个原始词,语音识别器151会执行步骤S27:将前缀位置的数值加上字尾位置的数值,以设定为前缀位置所对应的新数值,并设定字尾位置的数值为M,接着再重新执行步骤S22。举例来说,当语音识别器151在先前步骤S24或25所取得的字尾位置的数值为N,表示语音识别器151已判断多语词汇集中存在与拼音字符串的第1到N个拼音相符的既存拼音组合,因此语音识别器151接着针对拼音字符串的第1+N到M个拼音执行相符的既存拼音组合的查找。
另一方面,当语音识别器151判断字尾位置的数值等于M时,表示语音识别器151已判断完拼音字符串包含几个原始词,语音识别器151便可以在步骤S28中判断缓存器或是内存2中是否存在待确定词集。当语音识别器151判断存在待确定词集时,表示拼音字符串中有原始词还未确定;当语音识别器151判断存在多个待确定词集时,表示拼音字符串中有多个原始词还未确定。在此两种状况中,语音识别器151便会执行步骤S29:针对每一待确定词集,依据已确定的原始词的语言分布比例,选择待确定词集中的多个既存拼音组合中的一个作为原始词。进一步来说,当待确定词集中存有属于第一语言的既存拼音组合及属于第二语言的既存拼音组合,而已确定的原始词中属于第一语言的比例较高时,语音识别器151可以选择待确定词集中属于第一语言的既存拼音组合来作为原始词。而当语言分布比例相同时,语音识别器151则可以先任意选择一个作为原始词,待后续的矫正流程再行矫正。
语音识别器151在从每个待确定词集中选择既存拼音组合作为原始词后,便可以取得拼音字符串对应的所有原始词。另外,当语音识别器151执行判断步骤S27的结果为否(即不存在待确定词集)时,表示拼音字符串对应的所有原始词皆已取得。经由上述多个步骤,语音识别器151可以将拼音字符串判断为一个原始词或是切割为多个原始词,即对拼音字符串执行断词。通过在步骤S21及步骤S27将待辨识拼音组合的字尾位置的数值设定为M,语音识别器151可以基于正向长词优先的原则来执行断词。另外,语音识别器151亦可基于逆向长词优先原则、NLTK算法、Jieba算法等来执行断词。
进一步说明图2的步骤S3:通过语音识别器151依据多语词汇集及所述多个原始词形成语句,请一并参考图1、图2、图4及图6,其中图6是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的部分流程图。在步骤S31中,语音识别器151可以依据所确定的多个原始词的语言分布比例选择整合语言;在步骤S32中,语音识别器151依据多语词汇集取得所述多个原始词所对应的多个转换词,并以转换词形成语句。进一步来说,语音识别器151事先可以设定多个语言属于单一语言。以图4所示的多语词汇集为例,语音识别器151可以识别的语言为中文、英文等,其中,中文包含普通话、闽南语和客家话。假设先前步骤所确定的原始词为:/uo214//khia24//'baisirkhl/,其中,/uo214/所对应的语言L1属于中文;/khia24/所对应的语言L2属于中文;/'baisirkhl/所对应的语言L4则属于英文,此时语音识别器151判断这些原始词的中文分布比例较高,因而选择中文为整合语言。接着,语音识别器151再依据多语词汇集,取得原始词/uo214/、/khia24/及/'baisirkhl/分别对应的中文词意“我”、“骑”及“脚踏车”来作为转换词,并以这些转换词形成语句“我骑脚踏车”。
经由前述图2的步骤S1~S3,多语语音识别及主题语意分析装置1的语音识别器151可以初步取得语音输入所对应的语句,接着再由语意分析器153选择性地进行矫正。进一步说明步骤S4:通过语意分析器153依据先前语音识别所取得的语句以及主题词汇语意关系数据集,选择性地执行矫正流程、执行分析状态判断流程或是输出语句,请一并参阅图1、图2、图7及图8,其中图7是依据本发明一实施例所绘示的主题词汇语意关系数据集的示意图,图8则是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的部分流程图。如图7所示,主题词汇语意关系数据集可以包含多个主题,例如教育、医疗、商业等,每个主题各自包含人、事、地及物的类别,每种分类包含多个既存词。举例来说,教育主题的人类别可以包含“老师”、“学生”、“校长”等既存词;事类别可以包含“教书”、“学习”等既存词;地类别可以包含“教室”、“学校”等既存词;物类别则可包含“课本”、“文具”等既存词。主题词汇语意关系数据集亦包含这些既存词之间的关系,包含不同类别的既存词之间的关系,如图中虚线示意。在此要特别说明的是,图7仅示例性地绘示主题词汇语意关系数据集,而在其他实施例中,主题词汇语意关系数据集可以包含其他种类主题,且主题可各自包含多种分类,各分类包含一个或多个既存词。
图2的步骤S4可以包含图8所示的步骤S41~S43。通过步骤S41~S43,语意分析器153可以依据先前语音识别所取得的语句以及主题词汇语意关系数据集来判断语句中的转换词的错误比例。在步骤S41中,语意分析器153可以将语句判断为一个或多个子句。进一步来说,先前语音识别器151依据多语词汇集所取得的语句中的转换词各会具有词性。语意分析器153可以依据这些转换词的词性判断语句涉及一个或多个主题。一般而言,句子的组成往往为动词加主语和/或宾语。据此,语意分析器153可以依据语句中的动词数量将语句判断为一个或多个子句。举例来说,语意分析器153可以设定每个子句包含动词及其前后的名词或代名词。在另一实施例中,语意分析器153可以先依据语句中的转换词的数量决定是否依据词性来划分子句,假如语句中的转换词的数量小于预设数量(例如5),则将语句判断为一个子句。在又一实施例中,语意分析器153可以直接将语句判断为一个子句便续行步骤S42,亦即不进行上述词性的分析。上述各种规则可以预先储存于装置内部存储器或远程内存中,再由语意分析器153取得并执行判断。
接着,在步骤S42中,语意分析器153可以针对每个子句,依据主题词汇语意关系数据集来判断子句中属于同一主题的转换词的比例。举例来说,当子句中有5个转换词,其中有4个转换词同属于教育主题,则语意分析器153判断此语句的同主题比例为80%。在步骤S43中,语意分析器153依据各子句的同主题比例来取得错误比例。举例来说,语意分析器153取得同主题比例的平均值,并以100%减去此平均值而取得错误比例。
如前所述,内存2可以储存有多个不同语言的主题词汇语意关系数据集(例如中文主题词汇语意关系数据集、英文主题词汇语意关系数据集等)。在此实施例中,图2的步骤S4可以包含从这些既存主题词汇语意关系数据集中选择一个作为后续进行分析所依据的主题词汇语意关系数据集。进一步来说,语意分析器153会依据语句的整合语言,选择属于此整合语言的主题词汇语意关系数据集。
如图2及前列实施例所示,语意分析器153会判断依据主题词汇语意关系数据集所产生的分析结果是符合条件C1、C2或C3,并据以选择输出语句、执行分析状态判断流程,或是执行矫正流程。进一步来说,所述条件C1指前述语意分析器153所取得的语句中的转换词的错误比例位于第一错误比例范围内;所述条件C2指错误比例位于第二错误比例范围内;所述条件C3则指错误比例位于第三错误比例范围内。更进一步来说,第一错误比例范围可以设定为小于20%;第二错误比例范围可以设定为大于40%;第三错误比例范围则可以设定为20%~40%。上述百分比仅为举例,使用者可以依据实际需求来设定,本发明不予限制。
当语意分析器153判断错误比例位于第一错误比例范围时,表示语音识别器151所产生的语句的正确率已达到一特定程度,因此语意分析器153便会直接输出先前语音识别器151所产生的语句。
当错误比例位于第二错误比例范围时,表示语音识别器151所产生的语句的正确率过低,可能难以通过语意分析的矫正流程来改善,因此语意分析器153可以执行分析状态判断流程。进一步来说,分析状态判断流程包含:判断步骤S2(通过语音识别器151依据多语词汇集判断拼音字符串对应的原始词)的执行次数是否超过默认值(例如3次),其中,默认值可以依据语音识别器151可使用的断词方法的种类数量设定,或依据实际所需设定;当执行次数未超过默认值时,指示语音识别器151重新执行步骤S2以取得拼音字符串对应的其他多个原始词,并将执行次数加1;而当执行次数超过默认值时,通过输出接口13输出失败提示或是语音输入要求来作为分析状态判断流程的判断结果。特别来说,语音识别器151在执行步骤S2时可以通过第一断词方法来执行,而在重新执行步骤S2时可以通过不同的第二断词方法来执行。
当错误比例位于第三错误比例范围时,语音识别器151便会执行矫正流程。请一并参考图1、图2及图9,其中图9是依据本发明一实施例所绘示的多语语音识别及主题语意分析方法的矫正流程的流程图。矫正流程可以包含图9所示的步骤S71~S74。在步骤S71中,语意分析器153使用语言辨识声音模型以产生混淆句集,其中混淆句集包含多个候选句。进一步来说,语言辨识声音模型可以利用N-best搜寻算法来取得语句之原输入语音所对应的一个或多个候选句并存入混淆句集中,例如5个候选句。在步骤S72中,语意分析器153依据语句中的转换词所对应的原始词以及多语词汇集,补充混淆句集。进一步来说,语意分析器153可以从多语词汇集搜寻与作为原始词的拼音组合相同或类似的其他既存拼音组合,并以这些既存拼音组合形成候选句并存入混淆句集中。更进一步来说,内存2或是语意分析器153内部可以储存有多个易混淆拼音关系,例如/tsciah5/与/khia24/。在此例子中,语意分析器153除了搜寻与原始词的拼音组合相同的其他既存拼音组合之外,还可以搜寻与原始词具有易混淆拼音关系的既存拼音组合。
在步骤S73中,语意分析器153依据主题词汇语意关系数据集,判断混淆句集中的候选句是否有适用者。进一步来说,所谓的适用候选句是指该候选句中的词之间具有错误比例小于或等于特定比例的语意关系,其中错误比例的判断方式如前列图8实施例的步骤S41~S43所述,在此不再赘述。所述特定比例例如是20%。当语意分析器153判断混淆句集中有适用的候选句时,语意分析器153执行步骤S74:选择以此适用的候选句取代原经语音识别所得的语句,表示矫正流程成功;而当语意分析器153判断混淆句集中没有适用的候选句时,语意分析器153便会判断矫正流程失败。当矫正流程失败时,语意分析器153便接着执行前述的分析状况判断流程。
通过上述架构,本案所公开的多语语音识别及主题语意分析方法与装置,结合特殊的语音识别及主题语意分析技术,借此可以提升将语音内容转换为相应语句的准确率。
虽然本发明所公开的实施方式如上,惟所述的内容并非用以直接限定本发明的专利保护范围。任何本领域技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作些许的更动。本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (19)
1.一种多语语音识别及主题语意分析方法,包含:
通过语音识别器依据语音对照表,取得对应于语音输入信号的拼音字符串;
通过该语音识别器依据多语词汇集,判断该拼音字符串对应于多个原始词;
通过该语音识别器依据该多个原始词的语言分布比例选择分布比例最高的语言作为整合语言;以及
通过该语音识别器依据该多语词汇集,取得该多个原始词所对应的多个转换词,并以该多个转换词形成语句,其中该多个转换词属于该整合语言;以及
通过语意分析器依据该语句及主题词汇语意关系数据集判断该多个转换词的错误比例,当该错误比例位于第三错误比例范围内时,通过语意分析器执行矫正流程,并在判断该矫正流程成功时,输出经矫正后的该语句;
其中该矫正流程包含:
使用语言辨识声音模型以产生混淆句集,其中该混淆句集包含多个候选句;
依据该多个原始词以及该多语词汇集,补充该混淆句集;
依据该主题词汇语意关系数据集,判断对应的该混淆句集中的该多个候选句中是否有适用者;
当判断有该适用者时,以该适用者取代该语句,且该矫正流程成功;以及
当判断无该适用者时,该矫正流程失败。
2.如权利要求1所述的多语语音识别及主题语意分析方法,还包含:
当该错误比例位于第一错误比例范围内时,通过该语意分析器输出该语句;以及
当该错误比例位于第二错误比例范围内时,通过该语意分析器执行分析状态判断流程,该分析状态判断流程包含:
通过该语音识别器依据该多语词汇集判断该拼音字符串对应于该多个原始词的执行次数是否超过默认值;
当该执行次数未超过该默认值时,指示该语音识别器重新依据该多语词汇集判断该拼音字符串对应于其他多个原始词,并将该执行次数加1;以及
当该执行次数超过该默认值时,输出失败提示或语音输入要求。
3.如权利要求2所述的多语语音识别及主题语意分析方法,其中依据该语句及该主题词汇语意关系数据集判断该多个转换词的该错误比例包含:
将该语句判断为一个或多个子句;
针对每一该一个或多个子句,依据该主题词汇语意关系数据集,判断该子句中的该多个转换词的同主题比例;以及
依据每一该一个或多个子句的该同主题比例取得该错误比例。
4.如权利要求2所述的多语语音识别及主题语意分析方法,还包含:
通过该语意分析器从多个既存主题词汇语意关系数据集中选择一个作为该主题词汇语意关系数据集,其中该多个既存主题词汇语意关系数据集的每一者对应于不同语言,且该主题词汇语意关系数据集对应于该整合语言。
5.如权利要求1所述的多语语音识别及主题语意分析方法,还包含通过该语意分析器在判断该矫正流程失败时,执行分析状态判断流程,其中该分析状态判断流程包含:
通过该语音识别器依据该多语词汇集判断该拼音字符串对应于该多个原始词的执行次数是否超过默认值;
当该执行次数未超过该默认值时,指示该语音识别器重新依据该多语词汇集判断该拼音字符串对应于其他多个原始词,并将该执行次数加1;以及
当该执行次数超过该默认值时,输出失败提示或语音输入要求。
6.如权利要求5所述的多语语音识别及主题语意分析方法,其中依据该多语词汇集判断该拼音字符串对应于该多个原始词是通过第一断词方法来执行,而重新依据该多语词汇集判断该拼音字符串对应于其他该多个原始词是通过第二断词方法来执行,其中该第一断词方法异于该第二断词方法。
7.如权利要求1所述的多语语音识别及主题语意分析方法,其中该拼音字符串包含M个拼音,且通过该语音识别器依据该多语词汇集,判断该拼音字符串对应于该多个原始词包含:
设定该拼音字符串中的待辨识拼音组合,该待辨识拼音组合具有前缀位置及字尾位置;
设定该前缀位置的数值为1,且设定该字尾位置的数值为M;
判断该多语词汇集中与该待辨识拼音组合相符的既存拼音组合的数量;
当该数量为零个时,将该字尾位置的该数值减1,并再次执行判断该多语词汇集中与该待辨识拼音组合相符的既存拼音组合的数量;
当该数量为一个时,将所判断的该既存拼音组合作为该多个原始词的其中之一;以及
当该数量为多个时,将所判断的多个该既存拼音组合存入待确定词集。
8.如权利要求7所述的多语语音识别及主题语意分析方法,其中通过该语音识别器依据该多语词汇集,判断该拼音字符串对应于该多个原始词还包含:
当该数量为一个或多个时,还判断该字尾位置的该数值是否等于M;以及
当该字尾位置的该数值不等于M时,将该前缀位置的该数值加上该字尾位置的该数值,以设定为该前缀位置的新数值,并设定该字尾位置的该数值为M,并且再次执行判断该多语词汇集中与该待辨识拼音组合相符的既存拼音组合的数量。
9.如权利要求7所述的多语语音识别及主题语意分析方法,其中通过该语音识别器依据该多语词汇集,判断该拼音字符串对应于该多个原始词还包含:
依据该拼音字符串中已确定的该多个原始词的语言分布比例,选择该待确定词集中的多个该既存拼音组合中的一个作为该多个原始词中的另一个。
10.如权利要求1所述的多语语音识别及主题语意分析方法,其中该语音对照表包含对应于齿龈后音至卷舌音的多个拼音。
11.一种多语语音识别及主题语意分析装置,包含:
语音输入接口,用于接收语音输入信号;
输出接口,用于输出语句、经矫正后的该语句或判断结果;以及
处理器,连接于该语音输入接口及该输出接口,包含:
语音识别器,用于依据语音对照表取得对应于语音输入信号的拼音字符串,依据多语词汇集,判断该拼音字符串对应于多个原始词;依据该多个原始词的语言分布比例选择分布比例最高的语言作为整合语言,且依据该多语词汇集取得该多个原始词所对应的多个转换词,并以该多个转换词形成语句,其中该多个转换词属于该整合语言;以及
语意分析器,连接于该语音识别器,且用于依据该语句及主题词汇语意关系数据集判断该多个转换词的错误比例,当该错误比例位于第三错误比例范围内时,执行矫正流程,并在判断该矫正流程成功时,输出经矫正后的该语句,
其中该矫正流程包含:使用语言辨识声音模型以产生混淆句集,其中
该混淆句集包含多个候选句;依据该多个原始词以及该多语词汇集,补充该混淆句集;依据该主题词汇语意关系数据集,判断对应的该混淆句集中的该多个候选句中是否有适用者;当判断有该适用者时,以该适用者取代该语句,且该矫正流程成功;以及当判断无该适用者时,该矫正流程失败。
12.如权利要求11所述的多语语音识别及主题语意分析装置,还包含内存,该内存电性连接于该处理器,且储存有该语音对照表、该多语词汇集及该主题词汇语意关系数据集。
13.如权利要求11所述的多语语音识别及主题语意分析装置,其中该处理器用于通信连接于内存,以从该内存取得该语音对照表、该多语词汇集及该主题词汇语意关系数据集。
14.如权利要求11所述的多语语音识别及主题语意分析装置,其中该语意分析器还执行:
当该错误比例位于第一错误比例范围内时,输出该语句;以及
当该错误比例位于第二错误比例范围内时,执行分析状态判断流程,该分析状态判断流程包含:
通过该语音识别器依据该多语词汇集判断该拼音字符串对应于该原始词的执行次数是否超过默认值;
当该执行次数未超过该默认值时,指示该语音识别器重新依据该多语词汇集判断该拼音字符串对应于其他多个原始词,并将该执行次数加1;以及
当该执行次数超过该默认值时,输出失败提示或语音输入要求。
15.如权利要求14所述的多语语音识别及主题语意分析装置,其中该语意分析器执行的依据该主题词汇语意关系数据集判断该多个转换词的该错误比例包含:
将该语句判断为一个或多个子句;
针对每一该一个或多个子句,依据该主题词汇语意关系数据集,判断该子句中的该多个转换词的同主题比例;以及
依据每一该一个或多个子句的该同主题比例取得该错误比例。
16.如权利要求14所述的多语语音识别及主题语意分析装置,其中该语意分析器还执行:
从多个既存主题词汇语意关系数据集中选择一个作为该主题词汇语意关系数据集,其中该多个既存主题词汇语意关系数据集的每一者对应于不同语言,且该主题词汇语意关系数据集对应于该整合语言。
17.如权利要求11所述的多语语音识别及主题语意分析装置,其中该语意分析器还执行在判断该矫正流程失败时,执行分析状态判断流程,其中该分析状态判断流程包含:
通过该语音识别器依据该多语词汇集判断该拼音字符串对应于该多个原始词的执行次数是否超过默认值;
当该执行次数未超过该默认值时,指示该语音识别器重新依据该多语词汇集判断该拼音字符串对应于其他多个原始词,并将该执行次数加1;以及
当该执行次数超过该默认值时,输出失败提示或语音输入要求。
18.如权利要求17所述的多语语音识别及主题语意分析装置,其中该语音识别器通过第一断词方法来执行依据该多语词汇集判断该拼音字符串对应于该多个原始词,且通过第二断词方法来执行重新依据该多语词汇集判断该拼音字符串对应于其他该多个原始词,该第一断词方法异于该第二断词方法。
19.如权利要求11所述的多语语音识别及主题语意分析装置,其中该语音对照表包含对应于齿龈后音至卷舌音的多个拼音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911216220.7A CN112988955B (zh) | 2019-12-02 | 2019-12-02 | 多语语音识别及主题语意分析方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911216220.7A CN112988955B (zh) | 2019-12-02 | 2019-12-02 | 多语语音识别及主题语意分析方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112988955A CN112988955A (zh) | 2021-06-18 |
CN112988955B true CN112988955B (zh) | 2024-03-15 |
Family
ID=76331441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911216220.7A Active CN112988955B (zh) | 2019-12-02 | 2019-12-02 | 多语语音识别及主题语意分析方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988955B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001035249A2 (en) * | 1999-11-05 | 2001-05-17 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
CN102063282A (zh) * | 2009-11-18 | 2011-05-18 | 盛大计算机(上海)有限公司 | 汉语语音输入系统及方法 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
-
2019
- 2019-12-02 CN CN201911216220.7A patent/CN112988955B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001035249A2 (en) * | 1999-11-05 | 2001-05-17 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
CN102063282A (zh) * | 2009-11-18 | 2011-05-18 | 盛大计算机(上海)有限公司 | 汉语语音输入系统及方法 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112988955A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6785650B2 (en) | Hierarchical transcription and display of input speech | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
US6347300B1 (en) | Speech correction apparatus and method | |
US11270687B2 (en) | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
US8155958B2 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
KR19990044575A (ko) | 대화형 언어훈련용 장치 | |
US20050114131A1 (en) | Apparatus and method for voice-tagging lexicon | |
US20020065653A1 (en) | Method and system for the automatic amendment of speech recognition vocabularies | |
CN109979484A (zh) | 发音检错方法、装置、电子设备及存储介质 | |
CN111767709A (zh) | 一种对英文文本进行纠错及句法分析的逻辑方法 | |
US11341961B2 (en) | Multi-lingual speech recognition and theme-semanteme analysis method and device | |
JP6879521B1 (ja) | 多言語音声認識およびテーマ−意義素解析方法および装置 | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
CN112988955B (zh) | 多语语音识别及主题语意分析方法与装置 | |
CN111508522A (zh) | 一种语句分析处理方法及系统 | |
TWI731493B (zh) | 多語語音辨識及主題語意分析方法與裝置 | |
Kabra et al. | Auto spell suggestion for high quality speech synthesis in hindi | |
Felker et al. | Evaluating dictation task measures for the study of speech perception | |
JP2003162524A (ja) | 言語処理装置 | |
CN109671308B (zh) | 一种发音口型矫正系统的生成方法 | |
GB2480649A (en) | Non-native language spelling correction | |
Day | New Content Functionality for an Automated Oral Reading Fluency Tutor | |
Montoya Gomez et al. | Reading proficiency assessment using finite-state transducers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |