CN116635933A - 包括个性化文本到语音模块的电子装置及其控制方法 - Google Patents

包括个性化文本到语音模块的电子装置及其控制方法 Download PDF

Info

Publication number
CN116635933A
CN116635933A CN202280008387.8A CN202280008387A CN116635933A CN 116635933 A CN116635933 A CN 116635933A CN 202280008387 A CN202280008387 A CN 202280008387A CN 116635933 A CN116635933 A CN 116635933A
Authority
CN
China
Prior art keywords
electronic device
pronunciation
question
module
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280008387.8A
Other languages
English (en)
Inventor
柳哲
金光勋
成准植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210036226A external-priority patent/KR20220131098A/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN116635933A publication Critical patent/CN116635933A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

根据实施例,一种电子装置可以包括:存储器;以及至少一个处理器,所述至少一个处理器可操作地连接到所述存储器,其中,所述至少一个处理器:在语音助理应用被执行时,在多个发音串当中识别存储在所述存储器中的声音源数据量的值小于特定值的发音串;基于所识别的发音串识别话题;获得与所述话题中包括的多个词当中包括所识别的发音串的词相对应的问题文本;输出与所述问题文本相对应的问题语音;以及在输出所述问题语音之后接收话语。

Description

包括个性化文本到语音模块的电子装置及其控制方法
技术领域
本公开涉及一种包括个性化文本到语音(TTS)模块的电子装置以及一种用于控制该电子装置的方法。
背景技术
最近正在使用对用户语音输入提供响应的人工智能代理(例如,BixbyTM、AssistantTM或AlexaTM)来提供各种服务。文本到语音(TTS)技术通过全面地对输入文本与声学特性之间的关系进行建模来实现更自然的合成声音。
TTS可以指例如通过学习文本和声音源的数据对来创建最适于任何给定文本的语音的技术。个性化TTS(P-TTS)可以指例如将声学模型转换成用户的语调并且旨在通过以下操作来模仿用户的声音的技术:从用户获得几个文本-声音源数据对,并且基于所获得的文本-声音源数据对生成海量文本-声音源数据对。
发明内容
技术问题
为让个性化TTS生成海量声音源,需要将所有发音变体包括在几个文本-声音源数据对中。为此目的,电子装置事先向用户提供包括所有发音变体的文本并且使得用户能够阅读该文本,从而保证声音源。
个性化TTS的性能主要取决于所收集的声音是否和用户像往常一样讲话一般自然,并且其次取决于是否为每个发音变体收集到足够的声音。
然而,通过让用户阅读文本来获得声音的方式不会产生来自用户的好像她在谈话一样的自然语音。
本公开的实施例提供了一种用于经由使用聊天机器人的谈话从用户获得自然语音的电子装置以及一种控制该电子装置的方法。
技术方案
根据示例实施例,一种电子装置包括:存储器;以及至少一个处理器,所述至少一个处理器与所述存储器可操作地连接。所述至少一个处理器被配置为:响应于语音助理应用被执行,在多个发音变体当中识别存储在所述存储器中的声音源数据量小于指定值的发音变体;基于所识别的发音变体识别主题;获得与所述主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本;输出与所述问题文本相对应的问题语音;以及在输出所述问题语音之后接收话语。
根据示例实施例,一种控制电子装置的方法包括:响应于语音助理应用被执行,在多个发音变体当中识别存储在存储器中的声音源数据量小于指定值的发音变体;基于所识别的发音变体识别主题;获得与所述主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本;输出与所述问题文本相对应的问题语音;以及在输出所述问题语音之后接收话语。
有益效果
根据各种示例实施例,由于用户的话语是通过与聊天机器人的谈话收集的,所以可以从用户获得自然话语,从而提高个性化TTS的质量。
根据各种示例实施例,可以解决要用于个性化TTS的声音源量方面的不平衡。
附图说明
从结合附图进行的以下详细描述,本公开的某些实施例的上述及其他方面、特征和优点将更清楚,在附图中:
图1是示出了根据各种实施例的网络环境中的示例电子装置的框图;
图2是示出了根据各种实施例的示例集成智能系统的框图;
图3是示出了根据各种实施例的概念与动作之间的关系的信息被存储在数据库中的示例的图;
图4是示出了根据各种实施例的显示用于处理通过智能应用接收到的语音输入的画面的用户终端的图;
图5是示出了根据各种实施例的用于由电子装置收集用户话语的示例操作的流程图;
图6是示出了根据各种实施例的用于由电子装置训练P-TTS模块的示例操作的图;
图7a是示出了根据各种实施例的通过用户的话语收集的回答数据的图表;
图7b是示出了根据各种实施例的每发音变体的声音源数据量的图表;
图8a是示出了根据各种实施例的每主题的词列表的图表;
图8b是示出了根据各种实施例的由电子装置进行的主题预测的结果的图表;
图9a是示出了根据各种实施例的每词发音变体的图表;
图9b是示出了根据各种实施例的每发音变体词的图表;
图10是示出了根据各种实施例的每词的问题列表的图表;以及
图11是示出了根据各种实施例的用于由电子装置训练P-TTS模块的示例操作的流程图。
具体实施方式
图1是示出了根据各种实施例的网络环境100中的示例电子装置101的框图。参照图1,网络环境100中的电子装置101可以经由第一网络198(例如,短距离无线通信网络)与电子装置102进行通信,或者经由第二网络199(例如,长距离无线通信网络)与电子装置104或服务器108中的至少一者进行通信。根据实施例,电子装置101可以经由服务器108与电子装置104进行通信。根据实施例,电子装置101可以包括处理器120、存储器130、输入模块150、声音输出模块155、显示模块160、音频模块170、传感器模块176、接口177、连接端178、触觉模块179、相机模块180、电力管理模块188、电池189、通信模块190、用户识别模块(SIM)196或天线模块197。在一些实施例中,可以从电子装置101中省略上述部件中的至少一个部件(例如,连接端178),或者可以将一个或更多个其它部件添加到电子装置101中。根据实施例,可以将上述部件中的一些部件(例如,传感器模块176、相机模块180或天线模块197)实现为单个部件(例如,显示模块160)。
处理器120可以运行例如软件(例如,程序140)来控制电子装置101的与处理器120耦接的至少一个其它部件(例如,硬件部件或软件部件),并可以执行各种数据处理或计算。根据实施例,作为所述数据处理或计算的至少部分,处理器120可以将从另一部件(例如,传感器模块176或通信模块190)接收到的命令或数据存储在易失性存储器132中,对存储在易失性存储器132中的命令或数据进行处理,并将结果数据存储在非易失性存储器134中。根据实施例,处理器120可以包括主处理器121(例如,中央处理器(CPU)或应用处理器(AP))或者与主处理器121在操作上独立的或者相结合的辅助处理器123(例如,图形处理单元(GPU)、神经处理单元(NPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。例如,当电子装置101包括主处理器121和辅助处理器123时,辅助处理器123可以被适配为比主处理器121耗电更少,或者被专用于指定的功能。可以将辅助处理器123实现为与主处理器121分离,或者实现为主处理器121的部分。
在主处理器121处于未激活(例如,睡眠)状态时,辅助处理器123(而非主处理器121)可以控制与电子装置101的部件之中的至少一个部件(例如,显示模块160、传感器模块176或通信模块190)相关的功能或状态中的至少一些,或者在主处理器121处于激活状态(例如,运行应用)时,辅助处理器123可以与主处理器121一起来控制与电子装置101的部件之中的至少一个部件(例如,显示模块160、传感器模块176或通信模块190)相关的功能或状态中的至少一些。根据实施例,可以将辅助处理器123(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器123相关的另一部件(例如,相机模块180或通信模块190)的部分。根据实施例,辅助处理器123(例如,神经处理单元)可以包括专用于人工智能模型处理的硬件结构。可以通过机器学习来生成人工智能模型。例如,可以通过人工智能被执行之处的电子装置101或经由单独的服务器(例如,服务器108)来执行这样的学习。学习算法可以包括但不限于例如监督学习、无监督学习、半监督学习或强化学习。人工智能模型可以包括多个人工神经网络层。人工神经网络可以是深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度置信网络(DBN)、双向循环深度神经网络(BRDNN)或深度Q网络或其两个或更多个的组合,但不限于此。另外地或可选地,人工智能模型可以包括除了硬件结构以外的软件结构。
存储器130可以存储由电子装置101的至少一个部件(例如,处理器120或传感器模块176)使用的各种数据。所述各种数据可以包括例如软件(例如,程序140)以及针对与其相关的命令的输入数据或输出数据。存储器130可以包括易失性存储器132或非易失性存储器134。
可以将程序140作为软件存储在存储器130中,并且程序140可以包括例如操作系统(OS)142、中间件144或应用146。
输入模块150可以从电子装置101的外部(例如,用户)接收将由电子装置101的另一部件(例如,处理器120)使用的命令或数据。输入模块150可以包括例如麦克风、鼠标、键盘、键(例如,按钮)或数字笔(例如,手写笔)。
声音输出模块155可以将声音信号输出到电子装置101的外部。声音输出模块155可以包括例如扬声器或接收器。扬声器可以用于诸如播放多媒体或播放唱片的通用目的。接收器可以用于接收呼入呼叫。根据实施例,可以将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示模块160可以向电子装置101的外部(例如,用户)视觉地提供信息。显示160可以包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示模块160可以包括被配置为检测触摸的触摸传感器或被配置为测量由触摸产生的力的强度的压力传感器。
音频模块170可以将声音转换为电信号,反之亦可。根据实施例,音频模块170可以经由输入模块150获得声音,或者经由声音输出模块155或与电子装置101直接(例如,有线地)或无线耦接的外部电子装置(例如,电子装置102)的耳机输出声音。
传感器模块176可以检测电子装置101的操作状态(例如,功率或温度)或电子装置101外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块176可以包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口177可以支持将用来使电子装置101与外部电子装置(例如,电子装置102)直接(例如,有线地)或无线耦接的一个或更多个特定协议。根据实施例,接口177可以包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端178可以包括连接器,电子装置101可以经由所述连接器与外部电子装置(例如,电子装置102)物理连接。根据实施例,连接端178可以包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块179可以将电信号转换为可以被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块179可以包括例如电机、压电元件或电刺激器。
相机模块180可以捕获静止图像或运动图像。根据实施例,相机模块180可以包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块188可以管理对电子装置101的供电。根据实施例,可以将电力管理模块188实现为例如电力管理集成电路(PMIC)的至少部分。
电池189可以对电子装置101的至少一个部件供电。根据实施例,电池189可以包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块190可以支持在电子装置101与外部电子装置(例如,电子装置102、电子装置104或服务器108)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块190可以包括能够与处理器120(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块190可以包括无线通信模块192(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块194(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可以经由第一网络198(例如,短距离通信网络,诸如蓝牙TM、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络199(例如,长距离通信网络,诸如传统蜂窝网络、5G网络、下一代通信网络、互联网或计算机网络(例如,局域网(LAN)或广域网(WAN)))与外部电子装置进行通信。可以将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块192可以使用存储在用户识别模块196中的用户信息(例如,国际移动用户识别码(IMSI))识别或验证通信网络(诸如第一网络198或第二网络199)中的电子装置101。
无线通信模块192可以支持在4G网络之后的5G网络以及下一代通信技术(例如新无线(NR)接入技术)。NR接入技术可以支持增强型移动宽带(eMBB)、大规模机器类型通信(mMTC)或超可靠低延时通信(URLLC)。无线通信模块192可以支持高频带(例如,毫米波带)以实现例如高数据传输速率。无线通信模块192可以支持用于确保高频带上的性能的各种技术,诸如例如波束成形、大规模多输入多输出(大规模MIMO)、全维MIMO(FD-MIMO)、阵列天线、模拟波束成形或大规模天线。无线通信模块192可以支持在电子装置101、外部电子装置(例如,电子装置104)或网络系统(例如,第二网络199)中指定的各种要求。根据实施例,无线通信模块192可以支持用于实现eMBB的峰值数据速率(例如,20Gbps或更大)、用于实现mMTC的丢失覆盖(例如,164dB或更小)或者用于实现URLLC的U平面延迟(例如,对于下行链路(DL)和上行链路(UL)中的每一个为0.5ms或更小,或者1ms或更小的往返)。
天线模块197可以将信号或电力发送到外部(例如,外部电子装置)或者从外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块197可以包括一个天线,所述一个天线包括辐射器,所述辐射器由形成在基底(例如,印刷电路板(PCB))上的导体或导电图案形成。根据实施例,天线模块197可以包括多个天线(例如,阵列天线)。在这种情况下,可以由例如通信模块190从所述多个天线中选择适合于在通信网络(诸如第一网络198或第二网络199)中使用的通信方案的至少一个天线。随后可以经由所选择的至少一个天线在通信模块190与外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射器之外的另外的部件(例如,射频集成电路(RFIC))可以附加地形成为天线模块197的一部分。
根据各种实施例,天线模块197可以形成毫米波天线模块。根据实施例,毫米波天线模块可以包括印刷电路板、射频集成电路(RFIC)和多个天线(例如,阵列天线),RFIC设置在印刷电路板的第一表面(例如,底表面)上,或与第一表面相邻并且能够支持指定的高频带(例如,毫米波带),所述多个天线设置在印刷电路板的第二表面(例如,顶部表面或侧表面)上,或与第二表面相邻并且能够发送或接收指定高频带的信号。
上述部件中的至少一些可以经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互耦接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可以经由与第二网络199耦接的服务器108在电子装置101与外部电子装置104之间发送或接收命令或数据。电子装置102或电子装置104各自可以是与电子装置101相同类型的装置,或者是与电子装置101不同类型的装置。根据实施例,将在电子装置101运行的全部操作或一些操作可以在外部电子装置102、外部电子装置104或108中的一个或更多个运行。例如,如果电子装置101应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置101可以请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置101除了运行所述功能或服务以外,还可以请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可以执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置101。电子装置101可以在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可以使用例如云计算技术、分布式计算技术、移动边缘计算(MEC)技术或客户端-服务器计算技术。电子装置101可以使用例如分布式计算或移动边缘计算来提供超低延迟服务。在实施例中,外部电子装置104可以包括物联网(IoT)装置。服务器108可以是使用机器学习和/或神经网络的智能服务器。根据实施例,外部电子装置104或服务器108可以被包括在第二网络199中。电子装置101可以应用于基于5G通信技术或IoT相关技术的智能服务(例如,智能家居、智能城市、智能汽车或医疗保健)。
图2是示出了根据各种实施例的示例集成智能系统的框图。
参照图2,根据实施例,集成智能系统可以包括用户终端101、智能服务器200和服务服务器300。
根据实施例,用户终端101(例如,图1的电子装置101)可以是可以连接到因特网的终端装置(或电子装置),例如,移动电话、智能电话、个人数字助理(PDA)、膝上型计算机、TV、家用电器、可穿戴装置、头戴式装置(HMD)、智能扬声器等,但是不限于此。
根据实施例,用户终端101可以包括通信模块(例如,包括通信电路)190、麦克风150、扬声器155、显示器160、存储器130和/或处理器(例如,包括处理电路)120。以上枚举的部件可以彼此可操作地连接或电连接。
根据实施例,通信模块190(例如,图1的通信模块190)可以包括各种通信电路并且被配置为连接到外部装置以发送和接收数据。根据实施例,麦克风150(例如,图1的输入模块150)可以接收声音(例如,用户的话语)并且将该声音转换成电信号。根据实施例,扬声器155(例如,图1的声音输出模块155)可以将电信号输出为声音(例如,语音)。根据实施例,显示器160(例如,图1的显示模块160)可以被配置为显示图像或视频。根据实施例,显示器160可以显示被执行的应用(或应用程序)的图形用户界面(GUI)。
根据实施例,存储器130(例如,图1的存储器130)可以存储包括以下的各种软件(例如,可执行程序指令):客户端模块131、软件开发工具包(SDK)133和多个应用135(例如,135-1、135-2等)。客户端模块131和SDK 133可以配置用于执行通用功能的框架(或解决方案程序)。客户端模块131或SDK 133可以配置用于处理语音输入的框架。
根据实施例,存储在存储器130中的多个应用135可以是用于执行指定功能的程序。根据实施例,多个应用135可以包括第一应用135-1和第二应用135-3。根据实施例,多个应用135中的每一个应用135可以包括用于执行指定功能的多个动作。例如,应用可以包括闹钟应用、消息传递应用和/或日程表应用。根据实施例,多个应用135可以由处理器120(例如,图1的处理器120)执行以顺序地执行多个操作中的至少一些操作。
根据实施例,处理器120可以包括各种处理电路并且控制用户终端101的总体操作。例如,处理器120可以与通信模块190、麦克风150、扬声器155和显示器160电连接以执行指定操作。
根据实施例,处理器120可以执行存储在存储器130中的程序以执行指定功能。例如,处理器120可以执行客户端模块131或SDK 133中的至少一者以执行用于处理语音输入的以下操作。处理器120可以经由例如SDK 133控制多个应用135的操作。被描述为客户端模块131或SDK 133的操作的以下操作可以是根据处理器120的执行的操作。
根据实施例,客户端模块131可以接收语音输入。例如,客户端模块131可以接收与经由麦克风150检测到的用户的话语相对应的语音信号。客户端模块131可以向智能服务器200(例如,图1的服务器108)发送所接收到的语音输入。客户端模块131可以随着所接收到的语音输入一起向智能服务器200发送关于用户终端101的状态信息。状态信息可以是例如应用执行状态信息。
根据实施例,客户端模块131可以接收与所接收到的语音输入相对应的结果。例如,如果智能服务器200可以产生与所接收到的语音输入相对应的结果,则客户端模块131可以接收与所接收到的语音输入相对应的结果。客户端模块131可以将所接收到的结果显示在显示器160上。
根据实施例,客户端模块131可以接收与所接收到的语音输入相对应的计划。客户端模块131可以在显示器160上显示根据计划执行应用的多个操作的结果。客户端模块131可以在显示器上顺序地显示例如多个操作的执行的结果。作为另一示例,用户终端101可以在显示器上仅显示多个操作的执行的一些结果(例如,最后操作的结果)。
根据实施例,客户端模块131可以从智能服务器200接收对获得产生与语音输入相对应的结果所必要的信息的请求。根据实施例,客户端模块131可以响应于请求向智能服务器200发送必要的信息。
根据实施例,客户端模块131可以向智能服务器200发送由根据计划执行多个操作所产生的信息。智能服务器200可以使用结果信息来识别所接收到的语音输入已经被适当地处理。
根据实施例,客户端模块131可以包括语音辨识模块。根据实施例,客户端模块131可以经由语音辨识模块辨识语音输入以执行有限功能。例如,客户端模块131可以执行智能应用来处理语音输入以经由指定输入(例如,Wake up!(醒来!))执行有机操作。
根据实施例,智能服务器200可以经由通信网络从用户终端101接收与用户语音输入相关的信息。根据实施例,智能服务器200可以将与所接收到的语音输入相关的数据转换成文本数据。根据实施例,智能服务器200可以基于文本数据生成用于执行与用户语音输入相对应的任务的计划。
根据实施例,计划可以由人工智能(AI)系统生成。AI系统可以是基于规则的系统或基于神经网络的系统(例如,前馈神经网络(FNN))或递归神经网络(RNN))。AI系统可以是它们的组合或与之不同的系统。根据实施例,计划可以是从一组预定义计划中选择的或者是响应于用户请求实时地创建的。例如,AI系统可以从多个预定义计划当中选择至少一个计划。
根据实施例,智能服务器200可以向用户终端101发送根据所生成的计划的结果或者向用户终端101发送所生成的计划。根据实施例,用户终端101可以在显示器上显示根据计划的结果。根据实施例,用户终端101可以在显示器上显示根据计划执行操作的结果。
根据实施例,智能服务器200可以包括前端210、自然语言平台220、胶囊(capsule)数据库(DB)230、执行引擎240、终端用户接口250、管理平台260、大数据平台270和/或分析平台280。
根据实施例,前端210可以包括各种电路并且从用户终端101接收语音输入。前端210可以接收与语音输入相对应的响应。
根据实施例,自然语言平台220可以包括各种软件模块(例如,包括各种可执行程序指令),所述各种软件模块包括例如自动语音辨识模块(ASR模块)221、自然语言理解模块(NLU模块)223、计划器模块225、自然语言生成器模块(NLG模块)227和/或文本到语音模块(TTS模块)229。
根据实施例,ASR模块221可以将从用户终端101接收到的用户输入转换成文本数据。根据实施例,NLU模块223可以使用语音输入的文本数据来掌握用户的意图。例如,NLU模块223可以执行句法分析或语义分析以掌握用户的意图。根据实施例,NLU模块223可以使用语素或短语的语言特征(例如,句法元素)来掌握从语音输入中提取的词的含义,使所掌握的词的含义与意图匹配,并且确定用户的意图。
根据实施例,计划器模块225可以使用由NLU模块223确定的参数和意图来生成计划。根据实施例,计划器模块225可以基于所确定的意图确定执行任务所必要的多个域。计划器模块225可以确定基于意图确定的多个域中包括的多个操作。根据实施例,计划器模块225可以确定执行多个确定的操作所必要的参数或通过执行多个操作输出的结果值。参数和结果值可以用指定格式(或类)的概念加以定义。因此,计划可以包括多个概念和通过用户的意图确定的多个操作。计划器模块225可以逐步(或分层地)确定多个操作与多个概念之间的关系。例如,计划器模块225可以基于多个概念确定基于用户的意图确定的多个操作的执行次序。换句话说,计划器模块225可以基于通过执行多个操作输出的结果和执行多个操作所必要的参数来确定多个操作的执行次序。因此,计划器模块225可以生成包含多个操作与多个概念之间的关联信息(例如,本体(ontology))的计划。可以使用存储在胶囊DB230中的信息来生成计划,所述胶囊DB 230存储一组概念-操作关系。
根据实施例,NLG模块227可以将指定信息转换成文本类型。文本类型信息可以是自然语言话语的形式。根据实施例,TTS模块229可以将文本类型信息转换成语音类型信息。
根据实施例,也可以在用户终端101中实现自然语言平台220的所有或一些功能。
胶囊DB 230可以存储关于多个概念与和多个域相对应的操作之间的关系的信息。根据实施例,胶囊可以包括计划中包括的多个概念对象(或概念信息)和多个动作对象(或动作信息)。根据实施例,胶囊DB 230可以以概念动作网络(CAN)的形式存储多个胶囊。根据实施例,多个胶囊可以被存储在胶囊DB 230中包括的功能注册表中。
胶囊DB 230可以包括存储了确定与语音输入相对应的计划所必要的策略信息的策略注册表。策略信息可以包括用于在存在与语音输入相对应的多个计划的情况下确定一个计划的参考信息。根据实施例,胶囊DB 230可以包括存储了用以在指定上下文中向用户提出后续动作的随动(follow up)信息的随动注册表。后续动作可以包括例如后续话语。根据实施例,胶囊DB 230可以包括存储了关于经由用户终端101输出的信息的布局信息的布局注册表。根据实施例,胶囊DB 230可以包括存储了胶囊信息中包括的词汇信息的词汇注册表。根据实施例,胶囊DB 230可以包括存储了与用户的对话(或交互)信息的对话注册表。胶囊DB 230可以经由开发者工具更新所存储的对象。开发者工具可以包括用于更新例如动作对象或概念对象的功能编辑器。开发者工具可以包括用于更新词汇的词汇编辑器。开发者工具可以包括用以生成和注册策略以确定计划的策略编辑器。开发者工具可以包括用以生成与用户的对话的对话编辑器。开发者工具可以包括能够激活后续目标并且编辑后续话语以提供提示的随动编辑器。可以基于当前目标、用户的偏好或环境条件确定后续目标。根据实施例,也可以在用户终端101中实现胶囊DB 230。
根据实施例,执行引擎240可以使用所生成的计划来产生结果。终端用户接口250可以向用户终端101发送所产生的结果。因此,用户终端101可以接收结果并且将所接收到的结果提供给用户。根据实施例,管理平台260可以管理智能服务器200中使用的信息。根据实施例,大数据平台270可以收集用户数据。根据实施例,分析平台280可以管理智能服务器200的服务质量(QoS)。例如,分析平台280可以管理智能服务器200的部件和处理速度(或效率)。
根据实施例,服务服务器300可以向用户终端101提供指定服务(例如,食品订购或旅馆预订)。根据实施例,服务服务器300可以是由第三方运营的服务器。根据实施例,服务服务器300可以向智能服务器200提供用于生成与所接收到的语音输入相对应的计划的信息。所提供的信息可以被存储在胶囊DB 230中。服务服务器300可以向智能服务器200提供根据计划的结果信息。
在上述集成智能系统中,用户终端101可以响应于用户输入向用户提供各种智能服务。用户输入可以包括例如使用物理按钮的输入、触摸输入或语音输入。
根据实施例,用户终端101可以经由存储在其中的智能应用(或语音辨识应用)提供语音辨识服务。在这种情况下,例如,用户终端101可以辨识经由麦克风接收到的用户话语或语音输入并且向用户提供与所辨识的语音输入相对应的服务。
根据实施例,用户终端101可以基于所接收到的语音输入单独或与智能服务器和/或服务服务器一起执行指定操作。例如,用户终端101可以执行与所接收到的语音输入相对应的应用并且经由所执行的应用执行指定操作。
根据实施例,当用户终端101与智能服务器200和/或服务服务器一起提供服务时,用户终端可以使用麦克风150来检测用户话语并且生成与所检测到的用户话语相对应的信号(或语音数据)。用户终端可以经由通信模块190向智能服务器200发送语音数据。
根据实施例,响应于从用户终端101接收到的语音输入,智能服务器200可以生成用于执行与语音输入相对应的任务的计划或根据该计划执行的操作的结果。计划可以包括用于执行与用户的语音输入相对应的任务的多个动作以及与该多个动作相关的多个概念。概念可以是定义在执行多个动作时输入的参数的概念或定义通过执行多个动作输出的结果值的概念。计划可以包括多个动作与多个概念之间的关联信息。
根据实施例,用户终端101可以经由通信模块190接收响应。用户终端101可以使用扬声器155来向外部输出在用户终端101内部生成的语音信号,或者可以使用显示器160来向外部输出在用户终端101内部生成的图像。
图3是示出了根据各种实施例的概念与动作之间的关系的信息被存储在数据库中的示例的图。
智能服务器200的胶囊数据库(例如,胶囊数据库230)可以以概念动作网络(CAN)的形式存储胶囊。胶囊数据库可以以CAN的形式存储用于处理与用户的语音输入相对应的任务的操作以及对该操作是必要的参数。
根据实施例的胶囊数据库可以存储分别与多个域(例如,应用)相对应的多个胶囊(胶囊(A)401和胶囊(B)404)。根据实施例,一个胶囊(例如,胶囊(A)401)可以对应于一个域(例如,位置(地理)、应用)。此外,一个胶囊可以对应于用于为与该胶囊相关的域执行功能的至少一个服务提供器(例如,CP 1 402、CP 2 403、CP 4 405和/或CP 3 406)。根据实施例,一个胶囊可以包括用于执行指定功能的至少一个或更多个操作410和至少一个或更多个概念420。
自然语言平台220可以使用存储在胶囊数据库中的胶囊来生成用于执行与所接收到的语音输入相对应的任务的计划。例如,自然语言平台的计划器模块225可以使用存储在胶囊数据库中的胶囊来生成计划。例如,可以使用胶囊A401的操作4011和操作4013及概念4012和概念4014以及胶囊B 404的操作4041和概念4042来生成计划407。
图4是示出了根据各种实施例的UE处理通过智能应用接收到的语音输入的画面的图。
用户终端101可以执行智能应用来通过智能服务器200处理用户输入。
根据实施例,在辨识指定语音输入(例如,唤醒)或通过屏幕310上的硬件键(例如,专用硬件键)接收到输入时,用户终端101可以执行智能应用来处理语音输入。用户终端101可以例如在日程表应用运行的情况下执行智能应用。根据实施例,用户终端101可以在显示器140上显示与智能应用相对应的对象(例如,图标)311。根据实施例,用户终端101可以接收通过用户话语的语音输入。例如,用户终端101可以接收说:“Let me know my schedulethis week!(让我知道我本周的日程!)”的语音输入。根据实施例,用户终端101可以在显示器上显示智能应用的显示所接收到的语音输入的文本数据的用户界面(UI)313(例如,输入窗口)。
根据实施例,在屏幕320上,用户终端101可以在显示器上显示与所接收到的语音输入相对应的结果。例如,用户终端101可以接收与所接收到的用户输入相对应的计划,并且根据该计划在显示器上显示“本周的日程”。
图5是示出了根据各种实施例的用于由电子装置收集用户话语的示例操作的流程图。
根据实施例,参照图5,在操作510中,当语音助理应用运行时,电子装置(例如,图1的电子装置101或处理器120)可以识别存储在存储器(例如,图1的存储器130)中的声音源数据量小于预设(例如,指定)值的发音变体。在下面参照图7b更详细地描述每发音变体的声音源数据量。
根据实施例,发音变体可以例如指当在语音中实现词或句子时的最小语音单位(例如,音素)的序列。
根据实施例,当在执行语音助理应用之后接收到用户的问题语音时,电子装置可以获得与问题语音相对应的回答文本并且在回答文本中包括的多个发音变体当中识别存储在存储器中的声音源数据量小于目前值的发音变体或不足的发音变体。在下面参照图7a更详细地描述从用户获得的回答数据,并且在下面参照图7b更详细地描述每个发音变体的声音源数据量。
根据实施例,在操作520中,电子装置可以基于所识别的发音变体识别主题。例如,当识别到所存储的声音源数据量小于预设值的至少一个发音变体时,电子装置可以确定为该至少一个识别的发音变体收集用户话语并且识别用以引发用户话语的问题的主题。
例如,电子装置可以在多个主题中识别具有包括所识别的发音变体的大多数词的主题。根据实施例,至少一个词可以针对多个主题中的每一个主题以列表的形式关联,并且每主题词列表可以被存储在存储器中或者通过通信模块(例如,图1的通信模块190)从外部服务器接收。根据实施例,在下面参照图8a更详细地描述每主题词列表。
根据实施例,电子装置可以使用存储在存储器中的每词发音变体列表或每发音变体词列表中的至少一者来识别包括所存储的声音源数据量不足的发音变体的多个词,并且基于每主题词列表识别包括如识别的大多数词的主题。
根据实施例,在下面参照图9a更详细地描述每词发音变体列表,并且在下面参照图9b更详细地描述每发音变体词列表。
根据实施例,电子装置可以进一步考虑与用户的谈话的主题识别包括不足发音变体的主题。
例如,当在语音助理应用运行之后接收到用户的问题语音时,电子装置可以获得与问题语音相对应的回答文本并且进一步考虑回答文本和问题语音的谈话主题识别用以引发用户的话语的问题的主题。根据实施例,在电子装置获得与用户的问题相对应的回答文本的情况下,由于在获得回答文本的同时经由预测器模块(例如,图6的预测器模块630)识别出主题,所以电子装置可以将在获得回答文本的同时识别的主题识别为谈话主题。
在实施例中,当在语音助理应用输出问题语音之后输入了用户的语音时,电子装置可以分析用户的语音以由此获得回答数据并且进一步考虑回答数据的主题识别用于引发用户的话语的问题的主题。例如,电子装置可以基于下式(1)识别与用户的谈话的主题。
主题x的概率=(回答数据中的主题x的词数目)/∑i(回答数据中的主题i的词数目)式(1)
例如,主题i是单独对应于n个主题的从1到n的变量。由于这个原因,即使当回答数据中包括的词被包括在多个主题中时,准确的主题预测也可以是可能的。在下面参照图8b更详细地描述基于通过用户的话语获得的回答数据预测主题的结果。
根据实施例,在操作530中,电子装置可以获得与主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本。例如,电子装置可以获得与所识别的主题中包括的多个词当中包括所存储的声音源数据量不足的发音变体的词相对应的问题文本。
根据实施例,电子装置可以在所识别的主题中包括的多个词当中识别声音源数据量不足的发音变体的数目与词的发音变体的总数之比率的词。例如,电子装置可以基于下式(2)为所识别的主题中包括的多个词指配选词分数并且识别具有最大选词分数的词。
词s对于发音变体x的选词分数=词s中的发音变体x的数目/词s中的发音变体的总数式(2)
根据实施例,电子装置可以以最大比率识别包括不足发音变体(例如,式(2)中的发音变体x)的词并且在每词问题列表中获得与所识别的词相对应的问题文本。例如,每词问题列表可以是每个词与用于引起用户话语的问题匹配的列表,并且可以在存储器中接收每词问题列表或者从外部服务器接收每词问题列表。根据实施例,在下面参照图10更详细地描述每词问题列表。
根据实施例,在操作540中,电子装置可以输出与问题文本相对应的问题语音。
根据实施例,电子装置可以通过电子装置中包括的扬声器(例如,图1的声音输出模块155)输出与问题文本相对应的问题语音。例如,电子装置可以使用基于P-TTS模块训练的TTS模块(例如,图2的TTS模块229)来将问题文本转换成问题语音,并且通过扬声器输出该问题语音。
根据实施例,在通过与电子装置连接的外部扬声器装置(例如,图1的电子装置102或104(例如,耳机))输出问题语音时,电子装置可以通过通信模块(例如,图1的通信模块190)向外部扬声器装置发送问题语音,使得外部扬声器装置输出问题语音。
根据实施例,当电子装置是与外部电子装置(例如,智能电话)连接的服务器时,电子装置可以通过通信模块向外部电子装置发送问题语音,使得外部电子装置输出问题语音。
根据实施例,在操作550中,电子装置可以在输出问题语音之后接收用户话语。
根据实施例,在输出问题语音之后,电子装置可以通过电子装置中包括的麦克风(例如,图1的输入模块150)接收用户话语。
根据实施例,当通过与电子装置连接的外部麦克风装置(例如,图1的电子装置102或104)(例如,耳机)接收到用户话语时,电子装置可以通过通信模块(例如,图1的通信模块190)接收由外部麦克风装置接收到的用户话语。
根据实施例,当电子装置是与外部电子装置(例如,智能电话)连接的服务器时,电子装置可以通过通信模块接收由外部电子装置接收到的用户话语。
根据实施例,电子装置可以通过ASR模块(例如,图2的自动语音辨识模块221或图6的ASR模块610)辨识所接收到的用户话语,获得与用户话语相对应的文本,并且存储文本和声音的对。根据实施例,在下面参照图6描述在接收到用户话语之后用于训练P-TTS模块的操作。
图6是示出了根据各种实施例的用于由电子装置训练P-TTS模块的示例操作的图。
根据实施例,当电子装置101(例如,图1的电子装置101或处理器120)接收到用户60的话语时,电子装置101可以获得所接收到的用户话语的发音变体和声音源数据。
例如,电子装置101可以通过ASR模块610(例如,图1的处理器120或图2的自动语音辨识模块221)获得所接收到的话语的文本。
根据实施例,电子装置101可以获得从ASR模块610获得的文本中包括的多个发音变体。
根据实施例,电子装置101可以将基于所接收到的用户话语的声音源数据和通过ASR模块610获得的文本进行映射,并且将对存储在存储器(例如,图1的存储器130)中。根据实施例,电子装置101可以针对所获得的文本中包括的多个发音变体中的每一个发音变体映射声音源数据并且将对存储在存储器中。
根据实施例,可以将所存储的声音源数据-文本对用作到P-TTS模块(例如,图1的处理器120或图2的TTS模块229)的输入。
根据实施例,电子装置101可以通过记录器模块620(例如,图1的处理器120)在多个发音变体当中识别存储在存储器中的声音源数据量小于预设值的发音变体。根据实施例,当识别到声音源数据量小于预设(例如,指定)值的发音变体时,电子装置101可以确定要提供用于从所识别的发音变体引发用户话语的问题语音,并且将关于通过记录器模块620识别的发音变体的信息传送到选择器模块640。
在实施例中,电子装置101可以使用记录器模块620来提取用户话语中包括的发音变体。例如,在下面参照图7a更详细地描述通过用户话语收集的回答数据。
根据实施例,电子装置101可以使用预测器模块630(例如,图1的处理器120或图2的NLU模块223)来从用户话语预测谈话主题并且将关于所预测的谈话主题的信息传送到选择器模块640。根据实施例,预测器模块630可以使用如图8a所示出的每主题词列表来获得如图8b所示出的预测的结果。例如,预测器模块630可以基于上述式(1)预测用户话语中包括的至少一个主题的概率。
根据实施例,电子装置101可以通过选择器模块640(例如,图1的处理器120)识别包括不足发音变体的词。例如,选择器模块640可以基于从记录器模块620接收到的关于不足发音变体的信息识别包括具有不足的大多数词的主题。例如,选择器模块620可以基于如图8a所示出的每主题词列表确定包括具有不足发音变体的大多数词的主题。
根据实施例,选择器模块640可以进一步考虑从预测器模块630接收到的谈话主题识别不足发音变体的主题。
根据实施例,选择器模块640可以基于所识别的主题中包括的多个词的每发音变体词列表或每词发音变体列表识别用以引发用户话语的词。例如,选择器模块640可以基于上式(2)在每发音变体词列表或每词发音变体列表中包括的多个词当中以高比例识别具有不足发音变体的词作为用于引发用户话语的词。根据实施例,选择器模块640可以将关于所识别的词的信息传送到聊天机器人(chat-bot)模块650。根据实施例,在下面参照图9a更详细地描述每词发音变体列表,并且在下面参照图9b更详细地描述每发音变体词列表。
根据实施例,电子装置101可以通过聊天机器人模块650(例如,图1的处理器120)获得与所识别的词相对应的问题文本。例如,聊天机器人模块650可以从每词问题列表获得与从选择器模块640接收到的词相对应的问题文本。根据实施例,在下面参照图10更详细地描述每词问题列表。
根据实施例,聊天机器人模块650可以通过P-TTS模块或TTS模块获得与问题文本相对应的问题语音并且将该问题语音提供给用户60。
根据实施例,聊天机器人模块650可以进一步考虑所获得的声音源数据和从在提供问题语音之后接收到的用户话语获得的发音变体确定是否重复问题语音输出操作。
例如,当在进一步考虑所获得的发音变体和所获得的声音源数据时识别到声音源数据量小于预设值的发音变体时,聊天机器人模块650可以重复识别主题、获得问题文本并且输出问题语音的操作。因此,可以从用户话语获得每发音变体的声音源数据。
根据实施例,当进一步考虑所获得的发音变体和所获得的声音源数据时未识别到声音源数据量小于预设值的发音变体时,聊天机器人模块650可以基于所获得的发音变体和所获得的声音源数据训练(660)P-TTS模块。例如,当识别出通过根据问题语音的提供接收用户话语而收集的不足发音变体的声音源数据量不小于预设值时,聊天机器人模块650停止提供问题语音并且使用根据问题语音的提供获得的声音源数据和发音变体来训练P-TTS模块。
尽管已经参照图6描述了在接收到用户话语之后执行的操作,但是根据实施例,除了ASR模块610和预测模块630的操作之外,可以在语音助理应用运行之后和在接收到用户话语之前执行记录器模块620、选择器模块640和聊天机器人模块650的操作。
图7a是示出了根据各种实施例的通过用户的话语收集的示例回答数据的图表。
根据实施例,参照图7a,电子装置(例如,图1的电子装置101或处理器120)可以通过语音助理应用输出问题。例如,电子装置可以输出诸如“What’s your hobby?(你的爱好是什么?)”的问题作为语音或者将其显示在显示器(例如,图1的显示模块160)上。
根据实施例,电子装置可以在输出问题之后接收回答数据。例如,在输出问题之后,电子装置可以接收用户话语,诸如图7a所示出的回答1或回答2。
图7b是示出了根据各种实施例的每发音变体的声音源数据量的图表。
根据实施例,参照图7b,电子装置可以识别存储在存储器(例如,图1的存储器130)中的每个发音变体的声音源数据量。例如,电子装置可以基于使用P-TTS模块来将文本转换成语音所需要的参考声音源数据量来确定每个发音变体的声音源数据量。根据实施例,如图7b所示,电子装置可以通过比率或通过容量识别每个发音变体的声音源数据量。
根据实施例,电子装置可以分析如图7a所示出的用户的回答数据,从而获得发音变体和每发音变体声音源数据,并且电子装置可以基于所获得的声音源数据更新存储在存储器中的每发音变体声音源数据。
图8a是示出了根据各种实施例的每主题的示例词列表的图表。
根据实施例,电子装置(例如,图1的电子装置101或处理器120)可以基于如图8a所示出的每主题词列表识别包括具有不足发音变体的大多数词的主题。
根据实施例,当获得用户回答数据时,电子装置可以使用每主题词列表来预测用户回答数据的主题。根据实施例,在下面参照图8b更详细地描述主题预测的结果。
根据实施例,每主题词列表可以被存储在存储器(例如,图1的存储器130)中或者通过通信模块(例如,图1的通信模块190)从外部服务器接收。图8a的每主题词列表仅仅是为了便于描述的示例,并且本公开的实施例不限于此。
图8b是示出了根据各种实施例的由电子装置进行的主题预测的示例结果的图表。
根据实施例,参照图8b,电子装置(例如,图1的电子装置101或处理器120)可以基于图8a所示出的每主题词列表预测从用户获得的回答数据的主题。
例如,电子装置可以获得回答数据中包括的主题的词数目之和与每主题的词数目之间的比率,从而预测主题。例如,参照图8b,电子装置可以基于上式(1)获得主题的词数目之和与和诸如“听音乐”、“TVXQ”、“歌曲”或“BTS”的主题“K-POP”相关的词数目之间的比率以及主题的词数目之和与和诸如“原来”或“现今”的主题“历史”相关的词数目之间的比率,并且获得回答数据的主题是“K-POP”的概率为72%并且回答数据的主题是“历史”的概率为13%。图8b所示出的主题预测的结果仅仅是用于便于描述的示例,并且本公开的实施例不限于此。
图9a是示出了根据各种实施例的每词发音变体的图表。
根据实施例,参照图9a,每词发音变体列表是多个发音变体被映射到每个词的每词发音变体列表并且可以被存储在存储器(例如,图1的存储器130)中或者通过通信模块(例如,图1的通信模块190)从外部服务器接收。根据实施例,每词发音变体列表可以包括一个主题中包括的多个词。
根据实施例,电子装置(例如,图1的电子装置101或处理器120或图6的选择器模块640)可以基于图9a的每词发音变体列表识别包括所存储的声音源数据量不足的发音变体的词。
例如,电子装置可以使用上式2基于每词发音变体列表在主题中包括的词当中以最大比例识别具有不足发音变体的词。
图9b是示出了根据各种实施例的每发音变体词的图表。
根据实施例,参照图9a,每发音变体词列表是多个词被映射到每个发音变体的每发音变体词列表并且可以被存储在存储器(例如,图1的存储器130)中或者通过通信模块(例如,图1的通信模块190)从外部服务器接收。根据实施例,每发音变体词列表可以每发音变体包括一个主题中包括的多个词。
根据实施例,电子装置(例如,图1的电子装置101或处理器120或图6的选择器模块640)可以基于图9b的每发音变体词列表识别包括所存储的声音源数据量不足的发音变体的词。
例如,电子装置可以基于每发音变体词列表识别映射到不足发音变体的多个词并且使用上式(2)在多个识别的词当中以最大比例识别具有不足发音变体的词。
图10是示出了根据各种实施例的每词的示例问题列表的图表。
根据实施例,参照图10,每词问题列表可以例如是至少一个问题文本被映射到每个词的每词问题列表并且可以被存储在存储器(例如,图1的存储器130)中或者通过通信模块(例如,图1的通信模块190)从外部服务器接收。根据实施例,每词问题列表可以包括与每词的主题相关的至少一个问题文本。
根据实施例,电子装置(例如,图1的电子装置101或处理器120或图6的聊天机器人模块650)可以基于如图10所示出的每词问题列表识别用于从具有声音源数据量不足的发音变体的词引发用户话语的问题文本。
图11是示出了根据各种实施例的用于由电子装置训练P-TTS模块的示例操作的流程图。
根据实施例,参照图11,在操作1101中,电子装置(例如,图1的电子装置101或处理器120)可以接收用户话语。例如,当用户话语“What do you want to do today?(你今天想做什么?)”时,在操作1102中,电子装置可以确定支持聊天模式的域并且在聊天模式下执行与用户的谈话。
根据实施例,在操作1103中,电子装置可以存储用户话语的文本和声音源。例如,电子装置可以通过所输入的用户话语获得声音源,通过ASR模块(例如,图2的ASR模块221或图6的ASR模块610)获得所输入的用户话语的文本,并且映射和存储所获得的声音源和文本。
根据实施例,在操作1104中,电子装置可以开始分析所存储的声音源和文本。例如,电子装置可以基于所存储的声音源和文本分析每发音变体的声音源数据量对P-TTS操作而言是否足够。例如,当每发音变体的声音源数据量足够时,电子装置可以终止操作,而当识别到声音源数据量不足的发音变体时,电子装置可以通过用户话语收集声音源数据并且继续进行操作以训练P-TTS模块。
根据实施例,在操作1105中,电子装置可以分析所存储的声音源和文本是否足够作为用于训练P-TTS模块的输入数据。
根据实施例,当所存储的声音源和文本足够作为用于训练P-TTS模块的输入数据(在操作1105中为是)时,在操作1106中,电子装置可以将所存储的声音源和文本作为用于训练P-TTS模块的输入数据输入。
根据实施例,除非所存储的声音源和文本足够作为用于训练P-TTS模块的输入数据(在操作1105中为否),否则在操作1107中电子装置可以选择包括不足发音变体的词并且基于所选择的词确定第二信息。例如,电子装置可以确定关于包括所选词的主题的信息是第二信息。已经在上面参照图5和图6描述了识别与不足发音变体相关的主题的操作和识别词的操作,因此在下面可能不重复这些操作。
根据实施例,在操作1108中,电子装置可以从用户输入中提取第一信息。例如,电子装置可以使用NLG模块(例如,图1的处理器120或图2的NLG模块223或NLG模块227)来提取用户话语的意图和参数作为第一信息。
根据实施例,在操作1109中,电子装置可以确定具有与第一信息相对应的回答数据的数据库(DB)。例如,当输入用户话语“What do you want to do today?”时,电子装置可以确定具有例行谈话的回答数据的数据库。根据实施例,电子装置可以从所确定的数据库获得回答数据,诸如“Make your own bucket list this time(这次制作你自己的遗愿清单)”。
根据实施例,在操作1110中,电子装置可以从所确定的数据库确定与第二信息相对应的回答数据。例如,当识别到声音源数据量不足的发音变体时,电子装置可以从所确定的数据库确定与第二信息相对应的回答数据。
例如,当用户说出“I hate my mother(我恨我妈妈)”时,如果用于训练P-TTS模块的声音源和文本足够,则电子装置可以对于例行谈话从数据库确定“The closer,the moreconversations are needed(越亲密,越需要谈话)”是回答数据。在实施例中,当用于训练P-TTS模块的声音源和文本不足时,电子装置可以对于例行谈话基于第二信息包括有包括不足发音变体的词“BTS”从数据库获得用于引发用户话语(例如,“BTS”)的如“Do you likeBTS?(你喜欢BTS吗?)”或“Which BTS member is your favorite?(你最喜欢的是哪个BTS成员?)”这样的问题文本作为回答数据。
根据实施例,在操作1111中,电子装置可以输出所获得的回答数据。例如,电子装置可以输出与回答数据相对应的语音或者显示问题文本。
根据示例实施例,一种电子装置(例如,图1的电子装置101)包括:存储器(例如,图1的存储器130);以及至少一个处理器(例如,图1的处理器120),所述至少一个处理器与所述存储器可操作地连接。所述至少一个处理器可以被配置为:响应于语音助理应用被执行,在多个发音变体当中识别存储在所述存储器中的声音源数据量小于指定值的发音变体;基于所识别的发音变体识别主题;获得与所述主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本;输出与所述问题文本相对应的问题语音;以及在输出所述问题语音之后接收话语。
根据示例实施例,所述至少一个处理器可以被配置为:识别包括有包括所识别的发音变体的大多数词的主题。
根据示例实施例,所述至少一个处理器可以被配置为:响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及进一步考虑所述回答文本和所述问题语音话语的谈话主题识别所述主题。
根据示例实施例,所述至少一个处理器可以被配置为:响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及在所述回答文本中包括的多个发音变体当中识别存储在所述存储器中的所述声音源数据量小于指定值的发音变体。
根据示例实施例,所述至少一个处理器可以被配置为:在所识别的主题中包括的多个词当中识别所识别的发音变体与所有发音变体之比率的词;以及从所述多个词的每词问题列表获得与所识别的词相对应的问题文本。
根据示例实施例,所述至少一个处理器可以被配置为:获得所接收到的话语的发音变体和声音源数据;以及响应于所获得的声音源数据当中的所识别的发音变体的所述声音源数据量小于为了训练个性化文本到语音(P-TTS)模块而设置的声音源数据量,重复识别所述主题、获得所述问题文本和输出所述问题语音。
根据示例实施例,所述至少一个处理器可以被配置为:响应于所获得的声音源数据当中的所识别的发音变体的所述声音源数据量不小于所设置的声音源数据量,基于所获得的发音变体和所获得的声音源数据训练所述P-TTS模块。
根据示例实施例,所述电子装置还可以包括:麦克风(例如,图1的输入模块150);以及扬声器(例如,图1的声音输出模块155)。所述至少一个处理器可以被配置为:通过所述扬声器输出所述问题语音并且通过所述麦克风接收所述话语。
根据示例实施例,所述电子装置还可以包括:通信模块(例如,图1的通信模块190),所述通信模块包括通信电路。所述至少一个处理器可以被配置为:通过所述通信模块向外部电子装置发送问题语音并且通过所述通信模块从所述外部电子装置接收所述话语。
根据示例实施例,所述电子装置可以包括服务器,所述服务器被配置为与所述外部电子装置进行通信。
根据示例实施例,一种控制电子装置的方法包括:响应于语音助理应用被执行:在多个发音变体当中识别存储在存储器中的声音源数据量小于指定值的发音变体;基于所识别的发音变体识别主题;获得与所述主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本;输出与所述问题文本相对应的问题语音;以及在输出所述问题语音之后接收话语。
根据示例实施例,识别所述主题可以包括:识别包括有包括所识别的发音变体的大多数词的主题。
根据示例实施例,识别所述主题可以包括:响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及进一步考虑所述回答文本和所述问题语音话语的谈话主题识别所述主题。
根据示例实施例,识别所述发音变体可以包括:响应于在所述语音助理应用被执行之后接收到问题语音话语;获得与所述问题语音话语相对应的回答文本;以及在所述回答文本中包括的多个发音变体当中识别存储在所述存储器中的所述声音源数据量小于指定值的发音变体。
根据示例实施例,获得所述问题文本可以包括:在所识别的主题中包括的多个词当中识别所识别的发音变体与所有发音变体之比率的词;以及从所述多个词的每词问题列表获得与所识别的词相对应的问题文本。
根据示例实施例,所述方法可以进一步包括:获得所接收到的话语的发音变体和声音源数据;以及响应于所获得的声音源数据当中的所识别的发音变体的所述声音源数据量小于为了训练个性化文本到语音(P-TTS)模块而设置的声音源数据量,重复识别所述主题、获得所述问题文本和输出所述问题语音。
根据示例实施例,所述方法可以进一步包括:响应于所获得的声音源数据当中的所识别的发音变体的所述声音源数据量不小于所设置的声音源数据量,基于所获得的发音变体和所获得的声音源数据训练所述P-TTS模块。
根据示例实施例,输出所述问题语音可以包括:通过所述电子装置的扬声器输出所述问题语音,并且接收所述话语可以包括:通过所述电子装置的麦克风接收所述话语。
根据示例实施例,输出所述问题语音可以包括:通过所述电子装置的通信模块向外部电子装置发送所述问题语音,并且接收所述话语可以包括:通过所述通信模块从所述外部电子装置接收所述话语。
根据示例实施例,所述电子装置可以包括服务器,所述服务器被配置为与所述外部电子装置进行通信。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可以包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器等。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可以用来指代相似或相关的元件。将理解的是,与项相应的单数形式的名词可以包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可以包括在与所述多个短语中的相应一个短语中一起列举出的项的所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可以用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)耦接”、“耦接到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可以与所述另一元件直接(例如,有线地)耦接、与所述另一元件无线连接、或经由第三元件与所述另一元件耦接。
如本文所使用的,术语“模块”可以包括以硬件、软件或固件或它们的任何组合实现的单元,并可以与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可以将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器136或外部存储器138)中的可由机器(例如,电子装置101)读取的一个或更多个指令的软件(例如,程序140)。例如,在机器(例如,电子装置101)的处理器(例如,处理器120)的控制下,该处理器可以在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可以包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,“非暂时性”存储介质是有形装置,并且可以不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可以在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可以作为商品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来分发计算机程序产品,或者可以经由应用商店(例如,Play StoreTM)在线分发(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线分发的,则计算机程序产品中的至少部分可以是临时产生的,或者可以将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可以包括单个实体或多个实体,并且多个实体中的一些实体可分离地设置在不同的部件中。根据各种实施例,可以省略上述部件中的一个或更多个部件,或者可以添加一个或更多个其它部件。可选择地或者另外地,可以将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可以仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可以顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可以按照不同的顺序来运行或被省略,或者可以添加一个或更多个其它操作。
虽然已经参照各种示例实施例说明和描述了本公开,但是应理解,各种示例实施例旨在为说明性的,而不是限制性的。本领域的技术人员应进一步理解,在不背离包括所附权利要求及其等同形式的本公开的真实精神和完全范围的情况下,可以做出形式和细节上的各种改变。

Claims (15)

1.一种电子装置,所述电子装置包括:
存储器;以及
至少一个处理器,所述至少一个处理器与所述存储器可操作地连接,
其中,所述至少一个处理器被配置为:
响应于语音助理应用被执行,在多个发音变体当中识别存储在所述存储器中的声音源数据量小于指定值的发音变体;
基于所识别的发音变体识别主题;
获得与所述主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本;
输出与所述问题文本相对应的问题语音;以及
在输出所述问题语音之后接收话语。
2.根据权利要求1所述的电子装置,其中,所述至少一个处理器被配置为:识别包括有包括所识别的发音变体的大多数词的主题。
3.根据权利要求1所述的电子装置,其中,所述至少一个处理器被配置为:
响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及
进一步基于所述回答文本和所述问题语音话语的谈话主题识别所述主题。
4.根据权利要求1所述的电子装置,其中,所述至少一个处理器被配置为:
响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及
在所述回答文本中包括的多个发音变体当中,识别存储在所述存储器中的所述声音源数据量小于指定值的发音变体。
5.根据权利要求1所述的电子装置,其中,所述至少一个处理器被配置为:
在所识别的主题中包括的多个词当中,识别所识别的发音变体与所有发音变体之比率的词;以及
从所述多个词的每词问题列表获得与所识别的词相对应的问题文本。
6.根据权利要求1所述的电子装置,其中,所述至少一个处理器被配置为:
获得所接收到的话语的发音变体和声音源数据;以及
响应于所获得的声音源数据当中的所识别的发音变体的所述声音源数据量小于为了训练个性化文本到语音(P-TTS)模块而设置的声音源数据量,重复识别所述主题、获得所述问题文本和输出所述问题语音。
7.根据权利要求6所述的电子装置,其中,所述至少一个处理器被配置为:响应于所获得的声音源数据当中的所识别的发音变体的所述声音源数据量不小于所设置的声音源数据量,基于所获得的发音变体和所获得的声音源数据训练所述P-TTS模块。
8.根据权利要求1所述的电子装置,所述电子装置还包括:
麦克风;以及
扬声器,其中,
所述至少一个处理器被配置为:
通过所述扬声器输出所述问题语音;以及
通过所述麦克风接收所述话语。
9.根据权利要求1所述的电子装置,所述电子装置还包括:
通信模块,所述通信模块包括通信电路,其中,
所述至少一个处理器被配置为:
通过所述通信模块向外部电子装置发送所述问题语音;以及
通过所述通信模块从所述外部电子装置接收所述话语。
10.根据权利要求9所述的电子装置,其中,所述电子装置包括服务器,所述服务器被配置为与所述外部电子装置进行通信。
11.一种控制电子装置的方法,所述方法包括:
响应于语音助理应用被执行,在多个发音变体当中识别存储在存储器中的声音源数据量小于指定值的发音变体;
基于所识别的发音变体识别主题;
获得与所述主题中包括的多个词当中包括所识别的发音变体的词相对应的问题文本;
输出与所述问题文本相对应的问题语音;以及
在输出所述问题语音之后接收话语。
12.根据权利要求11所述的方法,其中,识别所述主题包括:识别包括有包括所识别的发音变体的大多数词的主题。
13.根据权利要求11所述的方法,其中,识别所述主题包括:
响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及
进一步考虑所述回答文本和所述问题语音话语的谈话主题识别所述主题。
14.根据权利要求11所述的方法,其中,识别所述发音变体包括:
响应于在所述语音助理应用被执行之后接收到问题语音话语,获得与所述问题语音话语相对应的回答文本;以及
在所述回答文本中包括的多个发音变体当中,识别存储在所述存储器中的所述声音源数据量小于指定值的发音变体。
15.根据权利要求11所述的方法,其中,获得所述问题文本包括:
在所识别的主题中包括的多个词当中,识别所识别的发音变体与所有发音变体之比率的词;以及
从所述多个词的每词问题列表获得与所识别的词相对应的问题文本。
CN202280008387.8A 2021-03-19 2022-03-07 包括个性化文本到语音模块的电子装置及其控制方法 Pending CN116635933A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2021-0036226 2021-03-19
KR1020210036226A KR20220131098A (ko) 2021-03-19 2021-03-19 개인화 tts 모듈을 포함하는 전자 장치 및 이의 제어 방법
PCT/KR2022/003172 WO2022196994A1 (ko) 2021-03-19 2022-03-07 개인화 텍스트 투 스피치 모듈을 포함하는 전자 장치 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
CN116635933A true CN116635933A (zh) 2023-08-22

Family

ID=83284027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280008387.8A Pending CN116635933A (zh) 2021-03-19 2022-03-07 包括个性化文本到语音模块的电子装置及其控制方法

Country Status (3)

Country Link
US (1) US20220301544A1 (zh)
EP (1) EP4207184A4 (zh)
CN (1) CN116635933A (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition

Also Published As

Publication number Publication date
EP4207184A4 (en) 2024-03-06
EP4207184A1 (en) 2023-07-05
US20220301544A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
US11455989B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
US20220254369A1 (en) Electronic device supporting improved voice activity detection
US11862178B2 (en) Electronic device for supporting artificial intelligence agent services to talk to users
CN111640429A (zh) 提供语音识别服务的方法和用于该方法的电子装置
US20220301542A1 (en) Electronic device and personalized text-to-speech model generation method of the electronic device
US20220343921A1 (en) Device for training speaker verification of registered user for speech recognition service and method thereof
US11455992B2 (en) Electronic device and system for processing user input and method thereof
KR20220086265A (ko) 전자 장치 및 전자 장치의 동작 방법
EP4207184A1 (en) Electronic device comprising personalized text-to-speech module, and control method thereof
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof
US20240071363A1 (en) Electronic device and method of controlling text-to-speech (tts) rate
US11670294B2 (en) Method of generating wakeup model and electronic device therefor
US20230186031A1 (en) Electronic device for providing voice recognition service using user data and operating method thereof
US20230267929A1 (en) Electronic device and utterance processing method thereof
US20220328043A1 (en) Electronic device for processing user utterance and control method thereof
US20230335112A1 (en) Electronic device and method of generating text-to-speech model for prosody control of the electronic device
US20240119960A1 (en) Electronic device and method of recognizing voice
US20230245647A1 (en) Electronic device and method for creating customized language model
KR20220131098A (ko) 개인화 tts 모듈을 포함하는 전자 장치 및 이의 제어 방법
US20220319499A1 (en) Electronic device for processing user utterance and controlling method thereof
US20220358918A1 (en) Server for identifying false wakeup and method for controlling the same
KR20230045333A (ko) 전자 장치 및 전자 장치의 동작 방법
KR20220129312A (ko) 전자 장치 및 전자 장치의 개인화 음성 모델 생성 방법
KR20240020137A (ko) 전자 장치 및 음성 인식 방법
KR20230089505A (ko) 사용자 데이터를 이용한 음성 인식 서비스를 제공하는 전자 장치 및 이의 동작 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination