CN111489752B - 语音输出方法、装置、电子设备和计算机可读存储介质 - Google Patents

语音输出方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111489752B
CN111489752B CN202010180647.2A CN202010180647A CN111489752B CN 111489752 B CN111489752 B CN 111489752B CN 202010180647 A CN202010180647 A CN 202010180647A CN 111489752 B CN111489752 B CN 111489752B
Authority
CN
China
Prior art keywords
language
voice
target user
target
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010180647.2A
Other languages
English (en)
Other versions
CN111489752A (zh
Inventor
朱梦雅
孟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Interactive Entertainment Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Interactive Entertainment Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Interactive Entertainment Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010180647.2A priority Critical patent/CN111489752B/zh
Publication of CN111489752A publication Critical patent/CN111489752A/zh
Application granted granted Critical
Publication of CN111489752B publication Critical patent/CN111489752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及互联网技术领域,公开了一种语音输出方法、装置、电子设备和计算机可读存储介质。上述语音输出方法包括:获取目标用户的语言体系;其中,所述目标用户的语言体系至少基于所述目标用户的语言习惯生成;将待处理的语音转换为基于所述语言体系的目标语音;输出所述目标语音至所述目标用户使用的终端,使得输出的语音信息可以符合用户的语言习惯,有利于满足不同用户对语言的个性化需求,同时有利于降低开发成本。

Description

语音输出方法、装置、电子设备和计算机可读存储介质
技术领域
本发明实施例涉及互联网技术领域,特别涉及一种语音输出方法、装置、电子设备和计算机可读存储介质。
背景技术
目前的游戏中的语言都是预先设定好的固定语言,如普通话,英语,用户只能在游戏中选择已经封装在游戏中的语言。有些游戏为了做当地版本,只能配合当地开发只封装当地语言的软件,比较熟悉的例子如四川麻将、重庆麻将这类带有地域特色的内容。
然而,发明人发现相关技术中至少存在如下问题:游戏中的固定语言难以满足不同用户对语言的个性化需求,因封装不同语言而开发多款软件成本较高。
发明内容
本发明实施方式的目的在于提供一种语音输出方法、装置、电子设备和计算机可读存储介质,使得输出的语音信息可以符合用户的语言习惯,有利于满足不同用户对语言的个性化需求同时有利于降低开发成本。
为解决上述技术问题,本发明的实施方式提供了一种语音输出方法,包括以下步骤:获取目标用户的语言体系;其中,所述目标用户的语言体系至少基于所述目标用户的语言习惯生成;将待处理的语音转换为基于所述语言体系的目标语音;输出所述目标语音至所述目标用户使用的终端。
本发明的实施方式还提供了一种语音输出装置,包括:获取模块,用于获取目标用户的语言体系;其中,所述目标用户的语言体系至少基于所述目标用户的语言习惯生成;转换模块,用于将待处理的语音转换为基于所述语言体系的目标语音;输出模块,用于输出所述目标语音至所述目标用户使用的终端。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的语音输出方法。
发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音输出方法。
本发明实施方式相对于现有技术而言,获取目标用户的语言体系;其中,目标用户的语言体系至少基于目标用户的语言习惯生成;将待处理的语音转换为基于语言体系的目标语音;输出目标语音至目标用户使用的终端,即输出基于目标用户的语言体系的语音至目标用户使用的终端。从用户角度而言,有利于输出适合目标用户的语音,符合用户的语言习惯,从而可以满足不同用户对语言的个性化需求。从开发商角度而言,只需要开发一款通用软件,就可以实现自动转换语音从而适应不同用户的语言习惯,而无需开发多款软件,有利于降低开发成本。
另外,所述目标用户的语言体系基于所述目标用户的语言习惯和所述目标用户使用的语言类别生成。本发明实施方式中目标用户的语言体系基于目标用户的语言类别和语言习惯生成,有利于输出既属于目标用户的语言习惯同时又符合目标用户的语言类别的语音,使得输出的语音与目标用户个人的关联度高,有利于更好的满足不同用户的个性化需求。
另外,所述目标用户使用的语言类别,通过以下方式确定:获取所述目标用户使用的终端的IP地址;根据所述IP地址,确定所述目标用户使用的终端的地理位置;根据所述地理位置,确定所述目标用户使用的语言类别。提供了一种获取目标用户使用的语言类别的实现方式,方便了直接获取目标用户使用的语言类别。
另外,所述将待处理的语音转换为基于所述语言体系的目标语音,包括:识别所述待处理的语音的语音内容;将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在所述目标用户使用的语言类别下的语音;其中,所述公众语言库中收录有各语音内容在不同语言类别下的语音;根据所述识别的语音内容在所述目标用户使用的语言类别下的语音与所述目标用户的语言习惯,得到基于所述语言体系的目标语音。提供了一种将待处理的语音转换为基于目标用户的语言体系的语音的实现方式,通过将待处理的语音的语音内容与语言库中收录的语音的的语音内容进行匹配,方便了准确得到转换后的基于目标用户使用的语言类别的语音,从而进一步方便了得到基于目标用户的语言体系的语音信息。
另外,所述将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在所述目标用户使用的语言类别下的语音,包括:在所述公众语言库中确定目标语言库;其中,所述公众语言库包括多个语言库,不同的语言库收录的语音的语言类别不同;所述目标语言库收录的语音的语言类别为所述目标用户使用的语言类别;将识别的语音内容与所述目标语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在所述目标用户使用的语言类别下的语音;或,将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在不同语言类别下的语音;从所述识别的语音内容在不同语言类别下的语音中,确定所述目标用户使用的语言类别对应的语音。提供了两种匹配方式,使得本实施方式的实现方式更加灵活。通过在公众语言库中确定目标语言库,将识别的语音内容与所述目标语言库中的语音的语音内容进行匹配,有利于提高匹配的针对性和匹配的速度,从而快速匹配得到识别的语音内容在目标用户使用的语言类别下的语音。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本发明第一实施方式的语音输出方法的流程图;
图2是根据本发明第二实施方式的语言体系的构建方式的流程图;
图3是根据本发明第二实施方式的语音输出方法的流程图;
图4是根据本发明第三实施方式的电子设备的结构示意图;
图5是根据本发明第四实施方式的语音输出装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种语音输出方法,应用于电子设备,其中,电子设备可以为终端或服务器。下面对本实施方式的语音输出方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的语音输出方法的流程图可以如图1所示,具体包括:
步骤101:获取目标用户的语言体系。
其中,目标用户可以为具有语音转换需求的用户,比如,电子设备在接收到用户A的语音转换指令后,可以将用户A确定为目标用户。假设,电子设备为游戏服务器,当用户在初次接收到游戏服务器发送的游戏中的语音时,可以弹出对话框或者语音提示,提醒用户是否需要转换语音,当用户确认需要转换后,游戏服务器将该用户确定为目标用户。在具体实现中,可以根据实际需要确定目标用户需满足的条件,本实施方式中只是以目标用户需满足的条件为具有语音转换需求为例,在具体实现中并不以此为限。
在具体实现中,目标用户的语言体系可以至少基于目标用户的语言习惯生成。其中,用户的语言习惯包括以下任意之一或其组合:语速、停顿位置、重音位置、口头语、语气词、儿化音。比如,用户说话时语句后面是否常带语气词,说话时名词后面是不是常带儿化音,语气词在语句中所处的位置,儿化音在语句中所处的位置等此类个人的语言习惯。
在一个例子中,电子设备可以基于以下方式获取目标用户的语言习惯:接收目标用户的语音信息,根据目标用户的语音信息,分析目标用户的语言习惯。电子设备可以向目标用户发起对话,比如与目标用户进行语音对话,然后接收目标用户的语音,对语音进行分析得到用户的语言习惯。具体的,电子设备可以接收目标用户的语音,然后生成与目标用户的语音对应的文本,最后对文本进行词法分析和句法分析,根据分析的结果获取目标用户的语言习惯。比如,采用梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称:MFCC)算法提取用户的语音中的语音特征,根据提取的语音特征生成文本。对生成的文本采用自然语言处理(Natural Language Processing,简称:NLP)算法进行词法分析和句法分析,从而分析得到目标用户的语言习惯。在另一个例子中,目标用户可以直接输入自己的语言习惯,比如,目标用户可以直接输入自己的语速、口头语、语气词等,电子设备可以直接获取目标用户输入的语言习惯。
在具体实现中,不同用户的语言习惯信息可能各有差异,因此,针对不同用户构建的语言体系也各有差异。在一个例子中,语言体系的生成方式可以如下:可以预设有语言体系的构建模板,根据构建模板和目标用户的语言习惯,构建针对目标用户的语言体系。其中,构建模板中包括多个参数项,比如用于填入目标用户的语速的参数项、用于填入目标用户的停顿位置的参数项、用于填入目标用户的重音位置的参数项、用于填入目标用户的口头语的参数项、用于填入目标用户的语气词的参数项、用于填入目标用户的儿化音的参数项等。在具体实现中,可以根据实际需要确定构建模板中有哪些参数项,本实施方式对此不作具体限定。可以将目标用户的语言习惯填入构建模板中对应的各个参数项,从而生成针对目标用户的语言体系。
在一个例子中,目标用户的语言体系可以预先存储在电子设备中,本步骤可以直接获取存储在电子设备中的针对目标用户的语言体系。也就是说,针对目标用户的语言体系之前已经生成过。
在一个例子中,目标用户的语言体系未存储在电子设备中,本步骤中可以按照上述方法获取目标用户的语言习惯,并至少基于目标用户的语言习惯生成针对目标用户的语言体系。
在另一个例子中,无论电子设备中是否存储有目标用户的语言体系,电子设备都可以在确定目标用户有语音转换需求时,根据当前获取的目标用户的语言习惯生成针对目标用户的语言体系,使得目标用户的语言体系具有实时性。
步骤102:将待处理的语音转换为基于所述语言体系的目标语音。
也就是说,将待处理的语音转换为基于目标用户的语言体系的语音。其中,待处理的语音可以为电子设备以当前时间点为起点向后延续预设时间段内将会输出的语音。比如,电子设备为游戏服务器,游戏服务器待处理的语音可以理解为:当前游戏场景节点下(记为A点)向后延续一段时间(如1分钟或者5分钟等)内的游戏语音信息。在具体实现中,待处理的语音也可以为:电子设备在与用户进行人机对话时待输出的语音,比如用户在玩游戏时,与游戏服务器进行人机对话过程中,游戏服务器待输出的语音。
在一个例子中,可以通过将待处理的语音与目标用户的语言习惯进行整合,从而将待处理的语音转换为基于目标用户的语言体系的语音。比如,将待处理的语音的语速变为目标用户的语速,在待处理的语音中加入目标用户的语气词、儿化音、口头语等,在待处理的语音中融入目标用户的重音位置、停顿位置,从而得到基于目标用户的语言体系的语音。转换后的基于目标用户的语言体系的语音符合用户的语言习惯。
步骤103:输出目标语音至目标用户使用的终端。
可以理解的是,本来电子设备输出的语音信息为步骤103中提到的转换前的待处理的语音。本实施方式中是将待输出的语音即待处理的语音转换为基于目标用户的语言体系的语音,从而电子设备直接输出基于目标用户的语言体系的语音至目标用户使用的终端。其中,终端可以为手机、电脑等具有语音输出功能的设备。
在一个例子中,电子设备为游戏服务器,则游戏服务器可以将待输出的语音转换为基于目标用户的语言体系的语音,然后输出基于目标用户的语言体系的语音至目标用户使用的终端,使得在目标用户使用的终端上可以播放基于目标用户的语言体系的语音。需要说明的是,本实施方式中的电子设备只是以游戏服务器为例,本实施方式对此不作具体限定。
需要说明的是,本实施方式中的上述各示例均为为方便理解进行的举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式,获取目标用户的语言体系;其中,目标用户的语言体系至少基于目标用户的语言习惯生成;将待处理的语音转换为基于语言体系的目标语音;输出目标语音至目标用户使用的终端,即输出基于目标用户的语言体系的语音至目标用户使用的终端。从用户角度而言,有利于输出适合目标用户的语音,符合用户的语言习惯,从而可以满足不同用户对语言的个性化需求。从开发商角度而言,只需要开发一款通用软件,就可以实现自动转换语音从而适应不同用户的语言习惯,而无需开发多款软件,有利于降低开发成本。。
本发明的第二实施方式涉及一种语音输出方法。下面对本实施方式的语音输出方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中目标用户的语言体系基于目标用户的语言习惯和目标用户使用的语言类别生成。下面通过图2对本实施方式中目标用户的语言体系的生成方式进行解释说明:
步骤201:获取目标用户的语言习惯。
其中,步骤201在第一实施方式中已经介绍过,为避免重复,在此不再赘述。
步骤202:获取目标用户的语言类别。
其中,语言类别可以包括:中文、英文、韩文等,还可以包括:普通话、四川方言、上海方言、广东方言、陕西方言等各地区方言。
在一个例子中,电子设备可以获取目标用户使用的终端的IP地址,根据IP地址,确定目标用户使用的终端的地理位置,根据目标用户使用的终端的地理位置,确定目标用户使用的语言类别。比如,目标用户在玩游戏时,游戏服务器可以获取目标用户用来玩游戏的手机的IP地址。
在另一个例子中,电子设备可以接收目标用户的语音,将用户的语音与预设的语言库中的不同语言类别下的语音进行匹配,得到目标用户的语音与不同语言类别下的语音的匹配度,根据匹配度确定目标用户的语言类别。比如,在得到的所有匹配度中,目标用户的语音与语言类别1下的语音的匹配度最高,则可以将语言类别1确定为目标用户使用的语音类别。
在具体实现中,目标用户也可以直接输入自己使用的语言类别,或者自己期望的语言类别。比如,目标用户想要听四川方言,即使目标用户不是四川人,也可以直接输入自己期望的语言类别,即四川方言。
在一个例子中,电子设备可以在确定用户有语言类别的转换需求时,再获取用户使用的语言类别。比如,当目标用户使用的语言类别与官方语言类别不相同时,可以确定目标用户有语言类别的转换需求,或者在接收到目标用户的转换指令时,可以确定目标用户有语言类别的转换需求。其中,官方语言类别可以理解为待处理的语音原本的语言类别,比如游戏在开发时,已经集成在游戏中的语言类别。
步骤203:根据目标用户使用的语言类别和语言习惯,生成针对目标用户的语言体系。
具体的说,可以根据预设的构建模板、目标用户的语言习惯和语言类别,构建针对目标用户的语言体系。其中,构建模板中包括多个参数项,比如用于填入目标用户的语言习惯的参数项和用于填入目标用户使用的语言类别的参数项。目标用户的语言习惯的参数项可以进一步包括:语速的参数项、用于填入目标用户的停顿位置的参数项、用于填入目标用户的重音位置的参数项、用于填入目标用户的口头语的参数项、用于填入目标用户的语气词的参数项、用于填入目标用户的儿化音的参数项等。在具体实现中,可以根据实际需要确定构建模板中有哪些参数项,本实施方式对此不作具体限定。电子设备可以将目标用户的语言习惯和语言类别填入构建模板中对应的各个参数项,从而构建针对目标用户的语言体系。
下面对本实施方式中的语音输出方法进行解释说明,可以参考图3:
步骤301:获取目标用户的语言体系。
具体的说,本实施方式中目标用户的语言体系基于目标用户的语言习惯和目标用户使用的语言类别生成。
步骤302:识别待处理的语音的语音内容。
其中,语音内容可以理解待处理的语音对应的文本,在具体实现中,可以将待处理的语音转换为文本,作为识别到的待处理的语音的语音内容。
步骤303:将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定识别的语音内容在所述目标用户使用的语言类别下的语音。
其中,公众语言库中收录有各语音内容在不同语言类别下的语音,也就是说,公众语言库中收录有各种不同的语音内容在不同语言类别下的语音,即各种不同的文字在不同语言类别下的语音。公语言库可以随时添加入新的语音,以增加公众语言库收录的语音,从而可以提高后续匹配的准确性。
在一个例子中,可以将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定识别的语音内容在不同语言类别下的语音。从识别的语音内容在不同语言类别下的语音中,确定目标用户使用的语言类别对应的语音。比如,识别的语音内容可以为“游戏人物”,则将识别的语音内容(游戏人物)与预设的公众语言库中的语音的语音内容进行匹配后,确定识别的语音内容(游戏人物)在不同语言类别下的语音,比如确定识别的语音内容(游戏人物)在普通话这一语言类别下的语音、在四川方言这一语言类别下的语音、在广东方言这一语言类别下的语音等。也就是说,确定识别的语音内容(游戏人物)的普通话发音、四川方言发音、广东方言发音。假设目标用户使用的语言类别为四川方言,则从识别的语音内容在不同语言类别下的语音中,确定识别的语音内容在四川方言下的语音。
在一个例子中,公众语言库包括多个语言库,不同的语言库收录的语音的语言类别不同。也就是说,公众语言库包括不同语言类别对应的语言库,属于相同语言类别的语音被收录进同一个语言库。比如,不同的地域对于的语言类别可能各不相同,按照地域的不同将公众语言库划分为针对不同地域的语言库。比如,四川方言对应的语言库中收录有属于四川方言的语音,上海方言对应的语言库中收录有属于上海方言的语音。将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定识别的语音内容在目标用户使用的语言类别下的语音,可以通过以下方式实现:在公众语言库中确定目标语言库;其中,目标语言库收录的语音的语言类别为目标用户使用的语言类别,将识别的语音内容与目标语言库中的语音的语音内容进行匹配,确定识别的语音内容在目标用户使用的语言类别下的语音。
在一个例子中,将识别的语音内容与目标语言库中的语音的语音内容进行匹配,确定识别的语音内容在目标用户使用的语言类别下的语音,可以进一步通过以下方式实现:先对识别的语音内容进行分词处理,比如,采用预设的分词工具对识别的语音内容进行分词处理。然后将每个分词与目标语言库中的语音的语音内容进行匹配,确定识别的语音内容中的各个分词在目标用户使用的语言类别下的语音分词。最后对各个语音分词进行组合,得到识别的语音内容在目标用户使用的语言类别下的语音。通过分词处理后再匹配,有利于提高匹配的准确度,进一步对匹配得到的语音分词进行组合,有利于更加准确的匹配得到识别的语音内容在目标用户使用的语言类别下的语音。
步骤304:根据识别的语音内容在目标用户使用的语言类别下的语音与目标用户的语言习惯,得到基于语言体系的目标语音。
也就是说,将待处理的语音转换为基于目标用户使用的语言类别且整合了目标用户的语言习惯的语音信息。具体的,可以将识别的语音内容在目标用户使用的语言类别下的语音中叠加目标用户的气词、儿化音、口头语等,或者还可以融入目标用户的重音位置、停顿位置等最终的到基于语言体系的目标语音。
步骤305:输出目标语音至目标用户使用的终端。
其中,步骤305与第一实施方式中步骤103大致相同,为避免重复,在此不再赘述。
为方便对本实施例的理解,下面以电子设备为游戏服务器对本实施例进行解释说明:
首先,当用户在初次接收游戏中的语音信息时,游戏界面上可以弹出对话框或者语音提示,提示用户选择语言类别,如系统本身提供了中文、英文、韩文等这类官方的语言类别,这些语言类别都是游戏在开发时,已经集成在游戏中的。如果玩家有除官方语言类别之外的转换需求时,服务器可以自动获取游戏玩家使用的终端的IP地址,根据IP地址,判断出该IP地址所处的地理位置,根据地理位置确定该地理位置对应的语言类别。
接着,游戏服务器在确定用户的语言类别后,可以提前读取当前游戏场景节点下(记为A点)向后延续一段时间(如1分钟或者5分钟等)内的语音,游戏服务器读取了基于官方语言类别的语音之后,将基于官方语言类别的语音转换为基于用户使用的语言类别的语音。另外,当游戏服务器读取到用户在游戏中的对话行为时,也可以让用户选择是采用用户的语言类别对话还是用官方语言类别对话,如果为游戏官方语言类别则正常按照语音指令执行即可,如果为采用用户的语言类别对话,则游戏服务器可以将待输出的语音转换为基于用户的语言类别的语音之后再输出。
在具体实现中,如果用户选择采用用户的语言类别对话,比如采用用户的当地方言进行对话,则当用户进行语音输入后,游戏服务器可以接收到用户的语音,分析该段语音中是否有书面语之外的个性化语句信息,如某些语句后面是否常带语气词,某些名词后面是不是常带儿化音,除书面语之外的口语化词语在语句中所处的位置,位置的特点(名词后,动词后等位置)等此类个人的语言习惯。当游戏服务器分析出用户的语言习惯之后,在游戏服务器待输出的语音中可以提前整合该用户的语言习惯,如将常用的语气词添加至语句最后,将儿话音添加到名词后面,整合完成后回到A点,播放整合了用户的语言习惯的方言版本的游戏语音。通过上述过程即形成了匹配用户的语言类别以及语言习惯的语音,用户在游戏过程中可以亲切的使用自己的当地语言。游戏服务器也能使用该玩家的语言习惯与用户进行对话,增加玩家与游戏互动的趣味性。
通过上述的语音的转换,可以降低开发商的开发成本,针对不同的地域,开发商开发一款基础游戏内容即可,不需要因为语言的问题分地域进行开发、宣发、运营。用户也可以通过不断地与游戏服务器进行人机对话,使得游戏服务器可以分析得到更加准确的语言习惯信息,从而输出更符合用户的语言习惯信息的游戏语音信息,将游戏变得合适用户,符合用户自己的语言习惯。
需要说明的是,本实施方式中的上述各示例均为为方便理解进行的举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式,将目标用户使用的语言类别和语言习惯进行结合,来构建针对目标用户的语言体系,有利于输出既满足目标用户的语言习惯同时又符合目标用户使用的语言类别的语音,使得输出的语音与目标用户个人的关联度高,有利于更好的满足不同用户的个性化需求。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种电子设备,如图4所示,包括至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行第一、或第二实施方式中的语音输出方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
本发明第四实施方式涉及一种语音输出装置,如图5所示,包括:获取模块501,用于获取目标用户的语言体系;其中,所述目标用户的语言体系至少基于所述目标用户的语言习惯生成;转换模块502,用于将待处理的语音转换为基于所述语言体系的目标语音;输出模块503,用于输出所述目标语音至所述目标用户使用的终端。
不难发现,本实施方式为与第一或第二实施方式相对应的装置实施例,本实施方式可与第一或第二实施方式互相配合实施。第一或第二实施方式中提到的相关技术细节和技术效果在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一或第二实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种语音输出方法,其特征在于,包括:
获取目标用户的语言体系;其中,所述目标用户的语言体系至少基于所述目标用户的语言习惯生成;
将待处理的语音转换为基于所述语言体系的目标语音;
输出所述目标语音至所述目标用户使用的终端;
其中,转换后的基于目标用户的所述语言体系的所述目标语音符合用户的语言习惯;
其中,所述语言习惯包括个性化语句信息,所述个性化语句信息包括某些语句后面是否常带语气词,某些名词后面是不是常带儿化音,除书面语之外的口语化词语在语句中所处的位置,所述位置在名词后或者是动词后,此类个人的语言习惯。
2.根据权利要求1所述的语音输出方法,其特征在于,所述目标用户的语言体系基于所述目标用户的语言习惯和所述目标用户使用的语言类别生成。
3.根据权利要求2所述的语音输出方法,其特征在于,所述目标用户使用的语言类别,通过以下方式确定:
获取所述目标用户使用的终端的IP地址;
根据所述IP地址,确定所述目标用户使用的终端的地理位置;
根据所述地理位置,确定所述目标用户使用的语言类别。
4.根据权利要求2所述的语音输出方法,其特征在于,所述将待处理的语音转换为基于所述语言体系的目标语音,包括:
识别所述待处理的语音的语音内容;
将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在所述目标用户使用的语言类别下的语音;其中,所述公众语言库中收录有各语音内容在不同语言类别下的语音;
根据所述识别的语音内容在所述目标用户使用的语言类别下的语音与所述目标用户的语言习惯,得到基于所述语言体系的目标语音。
5.根据权利要求4所述的语音输出方法,其特征在于,所述将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在所述目标用户使用的语言类别下的语音,包括:
在所述公众语言库中确定目标语言库;其中,所述公众语言库包括多个语言库,不同的语言库收录的语音的语言类别不同;所述目标语言库收录的语音的语言类别为所述目标用户使用的语言类别;
将识别的语音内容与所述目标语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在所述目标用户使用的语言类别下的语音;
或,
将识别的语音内容与预设的公众语言库中的语音的语音内容进行匹配,确定所述识别的语音内容在不同语言类别下的语音;
从所述识别的语音内容在不同语言类别下的语音中,确定所述目标用户使用的语言类别对应的语音。
6.根据权利要求1所述的语音输出方法,其特征在于,所述用户的语言习惯通过以下方式获取:
接收所述用户的语音;
生成与所述用户的语音对应的文本;
通过对所述文本进行词法分析和句法分析,获取所述用户的语言习惯。
7.根据权利要求1至6任一项所述的语音输出方法,其特征在于,所述语言习惯至少包括以下之一:
语速、停顿位置、重音位置、口头语、语气词、儿化音。
8.一种语音输出装置,其特征在于,包括:
获取模块,用于获取目标用户的语言体系;其中,所述目标用户的语言体系至少基于所述目标用户的语言习惯生成;
转换模块,用于将待处理的语音转换为基于所述语言体系的目标语音;
输出模块,用于输出所述目标语音至所述目标用户使用的终端;
其中,转换后的基于目标用户的所述语言体系的所述目标语音符合用户的语言习惯,
其中,所述语言习惯包括个性化语句信息,所述个性化语句信息包括某些语句后面是否常带语气词,某些名词后面是不是常带儿化音,除书面语之外的口语化词语在语句中所处的位置,所述位置在名词后或者是动词后,此类个人的语言习惯。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的语音输出方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音输出方法。
CN202010180647.2A 2020-03-16 2020-03-16 语音输出方法、装置、电子设备和计算机可读存储介质 Active CN111489752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180647.2A CN111489752B (zh) 2020-03-16 2020-03-16 语音输出方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180647.2A CN111489752B (zh) 2020-03-16 2020-03-16 语音输出方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111489752A CN111489752A (zh) 2020-08-04
CN111489752B true CN111489752B (zh) 2024-03-26

Family

ID=71798675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180647.2A Active CN111489752B (zh) 2020-03-16 2020-03-16 语音输出方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111489752B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349271A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 语音信息处理方法、装置、电子设备及存储介质
CN112820289A (zh) * 2020-12-31 2021-05-18 广东美的厨房电器制造有限公司 语音播放方法、语音播放系统、电器和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997762A (zh) * 2017-03-08 2017-08-01 广东美的制冷设备有限公司 家用电器的语音控制方法以及装置
CN107393530A (zh) * 2017-07-18 2017-11-24 国网山东省电力公司青岛市黄岛区供电公司 服务引导方法及装置
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110827826A (zh) * 2019-11-22 2020-02-21 维沃移动通信有限公司 语音转换文字方法、电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997762A (zh) * 2017-03-08 2017-08-01 广东美的制冷设备有限公司 家用电器的语音控制方法以及装置
CN107393530A (zh) * 2017-07-18 2017-11-24 国网山东省电力公司青岛市黄岛区供电公司 服务引导方法及装置
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110827826A (zh) * 2019-11-22 2020-02-21 维沃移动通信有限公司 语音转换文字方法、电子设备

Also Published As

Publication number Publication date
CN111489752A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
JP6675463B2 (ja) 自然言語の双方向確率的な書換えおよび選択
US6385586B1 (en) Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US8935163B2 (en) Automatic conversation system and conversation scenario editing device
US20210366462A1 (en) Emotion classification information-based text-to-speech (tts) method and apparatus
US20210174783A1 (en) Synthesizing Speech Recognition Training Data
CN101158947A (zh) 机器翻译的方法和装置
EP1901283A2 (en) Automatic generation of statistical laguage models for interactive voice response applacation
CN110264992B (zh) 语音合成处理方法、装置、设备和存储介质
US7912727B2 (en) Apparatus and method for integrated phrase-based and free-form speech-to-speech translation
JP2003517158A (ja) 分散型リアルタイム音声認識システム
WO2010025460A1 (en) System and method for speech-to-speech translation
JP2002244688A (ja) 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2021110943A (ja) クロスリンガル音声変換システムおよび方法
CN111489752B (zh) 语音输出方法、装置、电子设备和计算机可读存储介质
CN110782880B (zh) 一种韵律生成模型的训练方法及装置
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
CN101253547B (zh) 语音对话方法和系统
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备
CN113870833A (zh) 语音合成相关系统、方法、装置及设备
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
KR20210012265A (ko) 음성 제공 방법, 음성 제공을 위한 학습 방법 및 그 장치들

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant