CN110428805A - 非普通话与普通话互译方法、装置和设备 - Google Patents

非普通话与普通话互译方法、装置和设备 Download PDF

Info

Publication number
CN110428805A
CN110428805A CN201910832539.6A CN201910832539A CN110428805A CN 110428805 A CN110428805 A CN 110428805A CN 201910832539 A CN201910832539 A CN 201910832539A CN 110428805 A CN110428805 A CN 110428805A
Authority
CN
China
Prior art keywords
text
content
voice
translated
mandarin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910832539.6A
Other languages
English (en)
Inventor
丘春华
陈江湖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUJIAN PROVINCIAL HOSPITAL
Original Assignee
FUJIAN PROVINCIAL HOSPITAL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUJIAN PROVINCIAL HOSPITAL filed Critical FUJIAN PROVINCIAL HOSPITAL
Priority to CN201910832539.6A priority Critical patent/CN110428805A/zh
Publication of CN110428805A publication Critical patent/CN110428805A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种非普通话与普通话互译方法、装置和设备。通过获取当前与普通话互译的语言类型、采集待翻译语音、利用预先训练好的语音识别模型,从所述待翻译语音中提取语音特征、以及根据提取的所述语音特征确定所述待翻译语音的语言类型,根据确定的所述待翻译语音的语言类型和提取的所述语音特征,识别所述待翻译语音对应的文本内容、若所述待翻译语音的语言类型为普通话,将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容、若所述待翻译语音的语言类型为当前与普通话互译的语言类型,将所述待翻译语音的文本内容转换为普通话对应的文本内容等步骤,完成非普通话与普通话之间的互译,有效促进医生与患者之间的沟通。

Description

非普通话与普通话互译方法、装置和设备
技术领域
本发明涉及语音识别技术领域,具体涉及一种非普通话与普通话互译方法、装置和设备。
背景技术
现代社会医疗技术已经比较发达,但仍存在地域性的差异,相对发达城市的医疗条件相对较为优越,所以异地就医的现象也比较普遍。在治疗过程中会出现许多问题对治疗造成障碍,其中,语言不通是一个比较严重的问题。
尽管普通话已经比较普及,但在中老年人中的使用率并不是特别高,而中老年人又是接受治疗的主要群体,这就会造成医患沟通障碍,特别是在没有家属陪同的情况下,例如手术过程中,心理压力比较大,如果又不能很好地与医生进行沟通,可能会对治疗产生影响。
临床中,经常需要寻找与患者语言相近的医护人员进行协助翻译,但并不能保证一定有合适的人选。只能选择借助于翻译设备,但现有的翻译设备多为中外文翻译,没有方言翻译的功能,并且只能单向翻译。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种非普通话与普通话互译方法、装置和设备,辅助进行医患之间的有效沟通。
为实现以上目的,本发明采用如下技术方案:
一种非普通话与普通话互译方法,包括:
获取当前与普通话互译的语言类型;
采集待翻译语音;
利用预先训练好的语音识别模型,从所述待翻译语音中提取语音特征,以及根据提取的所述语音特征确定所述待翻译语音的语言类型,根据确定的所述待翻译语音的语言类型和提取的所述语音特征,识别所述待翻译语音对应的文本内容;
若所述待翻译语音的语言类型为普通话,将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容;
若所述待翻译语音的语言类型为当前与普通话互译的语言类型,将所述待翻译语音的文本内容转换为普通话对应的文本内容。
可选的,所述将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容包括:
获取预先构建好的文本转换数据库;
判断所述文本转换数据库中是否存在所述待翻译语音的文本内容;
若存在,则直接在所述文本转换数据库中提取与所述待翻译语音的文本内容对应的当前与普通话互译的语言类型的文本内容;
否则,利用预先训练好的文本翻译模型将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型的文本内容。
可选的,所述将所述待翻译语音的文本内容转换为普通话对应的文本内容包括:
获取预先构建好的文本转换数据库;
判断所述文本转换数据库中是否存在所述待翻译语音的文本内容;
若存在,则直接在所述文本转换数据库中提取与所述待翻译语音的文本内容对应的普通话的文本内容;
否则,利用预先训练好的文本翻译模型将所述待翻译语音的文本内容转换为普通话的文本内容。
可选的,所述文本转换数据库的构建方法包括:
采集目标内容对应的普通话的文本内容和非普通话的文本内容;
将所述普通话的文本内容和非普通话的文本内容一一对应存储,构成文本转换数据库。
可选的,所述根据提取的所述语音特征确定所述待翻译语音的语言类型包括:
将提取的所述待翻译语音的语音特征与普通话的语音特征进行比较;
若一致,则确定所述待翻译语音的语言类型为普通话;
否则,确定所述待翻译语音的语言类型为当前与普通话互译的语言类型。
可选的,所述将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容,或,将所述待翻译语音的文本内容转换为普通话对应的文本内容之后还包括:
播放转换得到的文本内容。
可选的,所述播放转换得到的文本内容的方式包括:
将所述转换得到的文本内容显示在人机交互界面上。
可选的,所述播放转换得到的文本内容的方式包括:
将所述转换得到的文本内容转换成声音信号播放。
一种非普通话与普通话互译装置,包括:
获取模块,用于获取当前与普通话互译的语言类型;
采集模块,用于采集待翻译语音;
语音识别模块,用于利用预先训练好的语音识别模型,从所述待翻译语音中提取语音特征,以及根据提取的所述语音特征确定所述待翻译语音的语言类型,根据确定的所述待翻译语音的语言类型和提取的所述语音特征,识别所述待翻译语音对应的文本内容;
第一转换模块,用于若所述待翻译语音的语言类型为普通话,将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容;
第二转换模块,用于若所述待翻译语音的语言类型为当前与普通话互译的语言类型,将所述待翻译语音的文本内容转换为普通话对应的文本内容。
一种非普通话与普通话互译设备,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如上任一项所述的方法。
本申请提供的技术方案可以包括以下有益效果:
通过获取当前与普通话互译的语言类型可以明确待翻译的非普通话的类型,然后实时采集待翻译语音,并利用预先训练好的语音识别模型,确定所述待翻译语音的语言类型,并识别所述待翻译语音对应的文本内容,若所述待翻译语音的语言类型为普通话,将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容,若所述待翻译语音的语言类型为当前与普通话互译的语言类型,将所述待翻译语音的文本内容转换为普通话对应的文本内容。在不同类型的语言中,同一文字的发音是不同的,或者同一含义对应的文字和发音都不一样,因而本申请以文字为中介,将两种类型的语言进行匹配和转换,从而完成非普通话与普通话之间的互译,有效促进医生与患者之间的沟通。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种非普通话与普通话互译方法的流程图。
图2是本发明实施例提供的一种非普通话与普通话互译装置的结构示意图。
图3是本发明实施例提供的一种非普通话与普通话互译设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
参见图1,图1是本发明一个实施例提供的一种非普通话与普通话互译方法的流程图。如图1所示,本实施例提供的方法具体可以包括如下步骤:
S101、获取当前与普通话互译的语言类型。
首先确定与普通话互译的非普通话的语言类型,此语言类型包括但不限于语种类型和方言类型,其中,语种类型包括各国语种,例如英语、法语、西班牙语等,方言类型包括各国方言,例如我国的各地区方言、少数民族语言等。
S102、采集待翻译语音。
具体的,可以利用音频采集装置,例如麦克风,对语音进行采集。
S103、利用预先训练好的语音识别模型,从待翻译语音中提取语音特征,以及根据提取的语音特征确定待翻译语音的语言类型,根据确定的待翻译语音的语言类型和提取的语音特征,识别待翻译语音对应的文本内容。
相关技术中一般的语音识别的过程包括对声音信号的预处理、特征提取、转换成文字等几个步骤,相应的,有对应的装置结构完成对应的处理。例如,转换成文字的过程可能需要用到经过训练的声学模型、字典等。将特征提取得到的特征向量输入声学模型,得到对应的音素信息,在字典中查找对应的文字,如此就可以完成语音到文字的识别过程。当然,这只是最基本的步骤,为了提高识别准确率还可以再经过语言模型或其它模型的处理,这些模型的训练方法有多种,当前最为高效的有深度学习等方法,例如,卷积神经网络模型等,进行模型训练的装置和方法属于本领域技术人员可以知晓的技术,但这并非本申请的主要内容,此处就不再赘述。
在本步骤中,利用预先训练好的语音识别模型对采集到的语音进行识别,可以通过其中的特征提取模型提取语音中的特征向量,其中包含了待翻译语音的发音特点等内容,可以据此判断出此语音是否为普通话或当前与普通话互译的语言类型,然后选择对应的声学模型和字典进行后续的识别,得到对应的文本内容。
S104、若待翻译语音的语言类型为普通话,将待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容。
在上一步骤中已经判断出了待翻译语音所属的语言类型,将其转换为另一类型即达到了翻译的目的。
S105、若待翻译语音的语言类型为当前与普通话互译的语言类型,将待翻译语音的文本内容转换为普通话对应的文本内容。
通过以上步骤,即可完成非普通话与普通话之间的互译,为不同语言的对话者搭建沟通桥梁,应用于医疗场景时,可以有效促进医生与患者之间的沟通,降低突发事件带来的风险。
上述步骤104的具体实现方式有多种,比如,在一些实施例中,可选的,将待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容具体可以包括:
获取预先构建好的文本转换数据库;
判断文本转换数据库中是否存在待翻译语音的文本内容;
若存在,则直接在文本转换数据库中提取与待翻译语音的文本内容对应的当前与普通话互译的语言类型的文本内容;
否则,利用预先训练好的文本翻译模型将待翻译语音的文本内容转换为当前与普通话互译的语言类型的文本内容。
在特定的场景中,一般都会发生一些特定的对话,根据以往经验,可以罗列出使用频率相对较高的语句进行预存,可以在一定程度上提高翻译的正确率和翻译速度。可以预先构建文本转换数据库,储存一定量的固定内容的一一对应的非普通话与普通话的文本数据,作为备选。
判断待翻译语音属于普通话,且识别出待翻译语音的文本内容后,可以优先在文本转换数据库中搜索匹配数据,当匹配度达到某个设定阈值时,可以认为是同样的语音内容,这样,直接提取数据库中与其对应的当前与普通话互译的语言类型的文本内容作为翻译结果即可。若搜索后发现文本转换数据库中并不存在待翻译语音的文本内容,则由预先训练好的文本翻译模型对文本内容进行翻译得到当前与普通话互译的语言类型的文本内容。
与之类似的,上述步骤105的具体实现方式也有多种,比如,在一些实施例中,将待翻译语音的文本内容转换为普通话对应的文本内容包括:
获取预先构建好的文本转换数据库;
判断文本转换数据库中是否存在待翻译语音的文本内容;
若存在,则直接在文本转换数据库中提取与待翻译语音的文本内容对应的普通话的文本内容;
否则,利用预先训练好的文本翻译模型将待翻译语音的文本内容转换为普通话的文本内容。
在判断待翻译语音属于非普通话,且识别出待翻译语音的文本内容后,可以优先在文本转换数据库中搜索匹配数据,当匹配度达到某个设定阈值时,可以认为是同样的语音内容,这样,直接提取数据库中与其对应的普通话的文本内容作为翻译结果即可。若搜索后发现文本转换数据库中并不存在待翻译语音的文本内容,则由预先训练好的文本翻译模型对文本内容进行翻译得到普通话的文本内容。
可选的,文本转换数据库的构建方法包括:
采集目标内容对应的普通话的文本内容和非普通话的文本内容;
将普通话的文本内容和非普通话的文本内容一一对应存储,构成文本转换数据库。
构建文本转换数据库的过程可以包括采集和存储两个部分,目标内容即为某个特定场景中使用频率相对较高的语句。采集过程除了文本内容,还可以包括语音,用于提取语音特征进行语音识别模型的训练,当然,用于训练的语音素材也可以来源于已有的语音库,但考虑到我国方言的特点,“十里不同音”,特别在南方,同一个地区不同市县甚至不同乡镇的语音都不完全一样,所以,作为优选,可以根据实际情况针对性地采集语音素材。
可选的,根据提取的语音特征确定待翻译语音的语言类型包括:
将提取的待翻译语音的语音特征与普通话的语音特征进行比较;
若一致,则确定待翻译语音的语言类型为普通话;
否则,确定待翻译语音的语言类型为当前与普通话互译的语言类型。
通过判断待翻译语音的语言类型可以知道后续的步骤中需要将其翻译成为哪种语言类型。判断的方式可以为与普通话的语音特征进行比较,也可以为与当前与普通话互译的语言类型的语音特征进行比较,根据比较结果,例如相似度是否达到某个阈值,可以判断待翻译语音是普通话还是当前与普通话互译的语言类型,从而明确后续的翻译目标是当前与普通话互译的语言类型还是普通话。
可选的,将待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容,或,将待翻译语音的文本内容转换为普通话对应的文本内容之后还包括:
播放转换得到的文本内容。
在文本内容转换完成后,需要对文本内容进行播放,以便于交流的双方可以直观地获得对方所表达的信息。
具体的,播放转换得到的文本内容的方式包括:
将转换得到的文本内容显示在人机交互界面上。
可以将文本内容显示在人机交互界面上,供双方查看。
在另一些实施例中,播放转换得到的文本内容的方式包括:
将转换得到的文本内容转换成声音信号播放。
可以将文本内容转换为语音,通过扬声器等语音播放设备进行播放,更适用于例如手术室这类对话中的某一方不能自由移动的场景中。
在一个具体的实施例中,来自新疆的维吾尔族老人在家人的陪同下到北京某医院就诊,需要进行手术,为了避免手术中因为语言不通造成意外情况,术前通过可以讲普通话的家人,对“手术室高频对话语句”的维吾尔族语语音和文字进行采集,进而对语音识别模型进行训练,达到标准识别率,并将维吾尔族语文字与相应的普通话文字一一对应存储,得到文本转换数据库。“手术室高频对话语句”可能包含“医生,我有点紧张”“您不要太紧张”“我们会先给您麻醉”“整个过程是无痛的”等内容。
在手术中,通过相关设备,采用上述各实施例中的非普通话与普通话互译方法,对老人和医生的对话进行互译。
设备开机后,获取当前与普通话互译的语言类型为维吾尔族语;然后实时采集待翻译语音;对于采集到的语音,利用已经训练好的语音识别模型,进行特征提取,并根据提取到的语音特征确定待翻译语音为普通话,同时,对特征进行处理,识别得到对应的文本内容;经过查找发现,在文本转换数据库中存储有与此文本内容一致的普通话文本,于是将与此普通话文本对应的维吾尔族语文本提取出来,作为翻译的结果;再将维吾尔族语文本转换为维吾尔族语语音,经设备上的扬声器播放出来,维吾尔族老人就能够准确理解医护人员所要表达的内容,作为反馈,维吾尔族老人的回答,也会被设备实时采集到,作为待翻译语音;再次通过语音识别模型进行识别,进而翻译成普通话播放,准确传达给医护人员。如此反复,直至手术开始,确保能够及时对病人进行反馈,避免恐惧焦虑等情绪对手术产生影响。
这里仅一一个场景作为举例,实际上,此方法可以适用于多种情境中,此处不再赘述。
参见图2,图2是本发明一个实施例提供的一种非普通话与普通话互译装置的结构示意图。如图2所示,本实施例提供的装置具体可以包括:
获取模块201,用于获取当前与普通话互译的语言类型;
采集模块202,用于采集待翻译语音;
语音识别模块203,用于利用预先训练好的语音识别模型,从待翻译语音中提取语音特征,以及根据提取的语音特征确定待翻译语音的语言类型,根据确定的待翻译语音的语言类型和提取的语音特征,识别待翻译语音对应的文本内容;
第一转换模块204,用于若待翻译语音的语言类型为普通话,将待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容;
第二转换模块205,用于若待翻译语音的语言类型为当前与普通话互译的语言类型,将待翻译语音的文本内容转换为普通话对应的文本内容。
本实施例的实施方式可以参考上述任一实施例,产生的有益效果相同,这里不再赘述。
可选的,第一转换模块204具体用于:获取预先构建好的文本转换数据库;判断文本转换数据库中是否存在待翻译语音的文本内容;若存在,则直接在文本转换数据库中提取与待翻译语音的文本内容对应的当前与普通话互译的语言类型的文本内容;否则,利用预先训练好的文本翻译模型将待翻译语音的文本内容转换为当前与普通话互译的语言类型的文本内容。
可选的,第二转换模块205具体用于:获取预先构建好的文本转换数据库;判断文本转换数据库中是否存在待翻译语音的文本内容;若存在,则直接在文本转换数据库中提取与待翻译语音的文本内容对应的普通话的文本内容;否则,利用预先训练好的文本翻译模型将待翻译语音的文本内容转换为普通话的文本内容。
可选的,语音识别模块203具体用于:将提取的待翻译语音的语音特征与普通话的语音特征进行比较;若一致,则确定待翻译语音的语言类型为普通话;否则,确定待翻译语音的语言类型为当前与普通话互译的语言类型。
可选的,非普通话与普通话互译装置还包括:
播放模块,用于播放转换得到的文本内容。
可选的,播放模块具体用于:将转换得到的文本内容显示在人机交互界面上。
在另一些实施例中,播放模块还可以用于:将转换得到的文本内容转换成声音信号播放。
本实施例的实施方式可以参考上述任一实施例,产生的有益效果相同,这里不再赘述。
参见图3,图3是本发明一个实施例提供的一种非普通话与普通话互译设备的结构示意图。如图3所示,本实施例提供的设备具体可以包括:
处理器301,以及与处理器相连接的存储器302;
存储器302用于存储计算机程序;
处理器301用于调用并执行存储器中的计算机程序,以执行如上任一实施例所述的方法。
本实施例的实施方式可以参考上述任一实施例,产生的有益效果相同,这里不再赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种非普通话与普通话互译方法,其特征在于,包括:
获取当前与普通话互译的语言类型;
采集待翻译语音;
利用预先训练好的语音识别模型,从所述待翻译语音中提取语音特征,以及根据提取的所述语音特征确定所述待翻译语音的语言类型,根据确定的所述待翻译语音的语言类型和提取的所述语音特征,识别所述待翻译语音对应的文本内容;
若所述待翻译语音的语言类型为普通话,将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容;
若所述待翻译语音的语言类型为当前与普通话互译的语言类型,将所述待翻译语音的文本内容转换为普通话对应的文本内容。
2.根据权利要求1所述的非普通话与普通话互译方法,其特征在于,所述将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容包括:
获取预先构建好的文本转换数据库;
判断所述文本转换数据库中是否存在所述待翻译语音的文本内容;
若存在,则直接在所述文本转换数据库中提取与所述待翻译语音的文本内容对应的当前与普通话互译的语言类型的文本内容;
否则,利用预先训练好的文本翻译模型将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型的文本内容。
3.根据权利要求1所述的非普通话与普通话互译方法,其特征在于,所述将所述待翻译语音的文本内容转换为普通话对应的文本内容包括:
获取预先构建好的文本转换数据库;
判断所述文本转换数据库中是否存在所述待翻译语音的文本内容;
若存在,则直接在所述文本转换数据库中提取与所述待翻译语音的文本内容对应的普通话的文本内容;
否则,利用预先训练好的文本翻译模型将所述待翻译语音的文本内容转换为普通话的文本内容。
4.根据权利要求2-3任一项所述的非普通话与普通话互译方法,其特征在于,所述文本转换数据库的构建方法包括:
采集目标内容对应的普通话的文本内容和非普通话的文本内容;
将所述普通话的文本内容和非普通话的文本内容一一对应存储,构成文本转换数据库。
5.根据权利要求1所述的非普通话与普通话互译方法,其特征在于,所述根据提取的所述语音特征确定所述待翻译语音的语言类型包括:
将提取的所述待翻译语音的语音特征与普通话的语音特征进行比较;
若一致,则确定所述待翻译语音的语言类型为普通话;
否则,确定所述待翻译语音的语言类型为当前与普通话互译的语言类型。
6.根据权利要求1所述的非普通话与普通话互译方法,其特征在于,所述将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容,或,将所述待翻译语音的文本内容转换为普通话对应的文本内容之后,还包括:
播放转换得到的文本内容。
7.根据权利要求6所述的非普通话与普通话互译方法,其特征在于,所述播放转换得到的文本内容的方式包括:
将所述转换得到的文本内容显示在人机交互界面上。
8.根据权利要求6所述的非普通话与普通话互译方法,其特征在于,所述播放转换得到的文本内容的方式包括:
将所述转换得到的文本内容转换成声音信号播放。
9.一种非普通话与普通话互译装置,其特征在于,包括:
获取模块,用于获取当前与普通话互译的语言类型;
采集模块,用于采集待翻译语音;
语音识别模块,用于利用预先训练好的语音识别模型,从所述待翻译语音中提取语音特征,以及根据提取的所述语音特征确定所述待翻译语音的语言类型,根据确定的所述待翻译语音的语言类型和提取的所述语音特征,识别所述待翻译语音对应的文本内容;
第一转换模块,用于若所述待翻译语音的语言类型为普通话,将所述待翻译语音的文本内容转换为当前与普通话互译的语言类型对应的文本内容;
第二转换模块,用于若所述待翻译语音的语言类型为当前与普通话互译的语言类型,将所述待翻译语音的文本内容转换为普通话对应的文本内容。
10.一种非普通话与普通话互译设备,其特征在于,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如权利要求1-8任一项所述的方法。
CN201910832539.6A 2019-09-04 2019-09-04 非普通话与普通话互译方法、装置和设备 Pending CN110428805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910832539.6A CN110428805A (zh) 2019-09-04 2019-09-04 非普通话与普通话互译方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832539.6A CN110428805A (zh) 2019-09-04 2019-09-04 非普通话与普通话互译方法、装置和设备

Publications (1)

Publication Number Publication Date
CN110428805A true CN110428805A (zh) 2019-11-08

Family

ID=68417354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832539.6A Pending CN110428805A (zh) 2019-09-04 2019-09-04 非普通话与普通话互译方法、装置和设备

Country Status (1)

Country Link
CN (1) CN110428805A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969903A (zh) * 2019-11-23 2020-04-07 金丽丽 一种多语种语言学习系统
CN112185542A (zh) * 2020-09-29 2021-01-05 上海桓城医疗健康科技有限责任公司 互联网远程智能化辅助诊疗系统
CN112329484A (zh) * 2020-11-06 2021-02-05 中国联合网络通信集团有限公司 自然语言的翻译方法及装置
CN114783437A (zh) * 2022-06-15 2022-07-22 湖南正宇软件技术开发有限公司 一种人机语音交互实现方法、系统及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法
CN1786943A (zh) * 2004-12-24 2006-06-14 卢国跃 一种中英文语音交换装置
US20070271088A1 (en) * 2006-05-22 2007-11-22 Mobile Technologies, Llc Systems and methods for training statistical speech translation systems from speech
CN101667424A (zh) * 2008-09-04 2010-03-10 英业达股份有限公司 普通话与多种方言之间的语音翻译系统及其方法
CN107015970A (zh) * 2017-01-17 2017-08-04 881飞号通讯有限公司 一种网络语音通信中实现双语互译的方法
CN107273377A (zh) * 2016-04-08 2017-10-20 黄山学院 方言地理-声谱特征采集技术
CN107515862A (zh) * 2017-09-01 2017-12-26 北京百度网讯科技有限公司 语音翻译方法、装置及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786943A (zh) * 2004-12-24 2006-06-14 卢国跃 一种中英文语音交换装置
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法
US20070271088A1 (en) * 2006-05-22 2007-11-22 Mobile Technologies, Llc Systems and methods for training statistical speech translation systems from speech
CN101667424A (zh) * 2008-09-04 2010-03-10 英业达股份有限公司 普通话与多种方言之间的语音翻译系统及其方法
CN107273377A (zh) * 2016-04-08 2017-10-20 黄山学院 方言地理-声谱特征采集技术
CN107015970A (zh) * 2017-01-17 2017-08-04 881飞号通讯有限公司 一种网络语音通信中实现双语互译的方法
CN107515862A (zh) * 2017-09-01 2017-12-26 北京百度网讯科技有限公司 语音翻译方法、装置及服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969903A (zh) * 2019-11-23 2020-04-07 金丽丽 一种多语种语言学习系统
CN112185542A (zh) * 2020-09-29 2021-01-05 上海桓城医疗健康科技有限责任公司 互联网远程智能化辅助诊疗系统
CN112329484A (zh) * 2020-11-06 2021-02-05 中国联合网络通信集团有限公司 自然语言的翻译方法及装置
CN114783437A (zh) * 2022-06-15 2022-07-22 湖南正宇软件技术开发有限公司 一种人机语音交互实现方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN110428805A (zh) 非普通话与普通话互译方法、装置和设备
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN104143329B (zh) 进行语音关键词检索的方法及装置
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
Pan et al. Using the Outputs of Different Automatic Speech Recognition Paradigms for Acoustic-and BERT-Based Alzheimer's Dementia Detection Through Spontaneous Speech.
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
CN106663424A (zh) 意图理解装置以及方法
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CA2481080C (en) Method and system for detecting and extracting named entities from spontaneous communications
CN111180025B (zh) 表示病历文本向量的方法、装置及问诊系统
Arslan et al. A detailed survey of Turkish automatic speech recognition
KR20140080089A (ko) 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
KR20170090127A (ko) 음성 언어 이해 장치
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
CN110675866A (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN110853669B (zh) 音频识别方法、装置及设备
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
JP4244423B2 (ja) 適正単語列推定装置
CN112527973A (zh) 一种搜索疾病信息的方法和系统
JP2014219809A (ja) テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置
KR20120042381A (ko) 음성인식 문장의 문형식별 장치 및 방법
JP2011027971A (ja) 音声認識装置、音声認識方法及びそのプログラム
KR20140121169A (ko) 청각장애인용 상황대처 음성 자막 변환 방법 및 장치
TWI232428B (en) Chinese voice recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108

RJ01 Rejection of invention patent application after publication