CN109389974A - 一种语音操作的方法及装置 - Google Patents
一种语音操作的方法及装置 Download PDFInfo
- Publication number
- CN109389974A CN109389974A CN201710676838.6A CN201710676838A CN109389974A CN 109389974 A CN109389974 A CN 109389974A CN 201710676838 A CN201710676838 A CN 201710676838A CN 109389974 A CN109389974 A CN 109389974A
- Authority
- CN
- China
- Prior art keywords
- voice
- meaning
- words
- application
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000000875 corresponding effect Effects 0.000 claims description 195
- 230000009471 action Effects 0.000 claims description 67
- 230000006399 behavior Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 11
- 238000009434 installation Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000011017 operating method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本说明书公开了一种语音操作的方法及装置,基于对用户输入的语音的识别结果,确定该语音对应的语意,其次,确定语意对应的至少一种操作以及应用类型,根据所述应用类型,确定属于所述应用类型的各应用,最后对所述各应用中的至少部分应用执行所述至少一种操作。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种语音操作的方法及装置。
背景技术
随着信息技术的发展,现有的语音识别技术已经较为成熟,在识别准确率以及识别速度上均已经满足实用化的需求,进而,基于语音识别技术发展出了多种实用的技术,例如,基于语音识别技术,将用户的声音转化为字符,并通过即时通讯应用发送该字符,或者基于语音识别技术,根据用户的声音,查询指定的信息等等。
上述发送文字信息、查询指定信息等过程,均可以视为是进行语音操作的过程。也就是说,在现有技术中终端可通过监测用户的语音,确定用户的语音对应的字符,并根据确定出的该字符执行对应的操作。
具体的,现有的基于识别的操作方法中,终端通常仅通过确定用户语音中的关键词的方式,确定需要执行的操作,并执行该操作。
基于现有技术,本申请提供一种新的语音操作的方法及装置。
发明内容
本说明书实施例提供一种语音操作的方法及装置,用于解决由于现有基于识别的操作的技术,在确定用户真实意图上存在缺陷,导致难以满足用户需求,操作效率低的问题。
本说明书实施例采用下述技术方案:
一种语音操作的方法,包括:
操作系统对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
一种语音操作的方法,包括:
语音平台对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
一种语音操作的装置,包括:
识别模块,对用户输入的语音进行识别,获得所述语音的识别结果;
语意确定模块,确定所述识别结果对应的语意;
操作确定模块,确定与所述语意对应的操作;
执行模块,执行所述操作。
一种终端,所述终端包括一个或多个处理器及存储器,所述存储器存储有程序,所述程序为安装在所述终端上的操作系统,所述操作系统被配置成由所述一个或多个处理器执行以下步骤:
对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
一种服务器,所述服务器为语音平台的服务器,包括一个或多个处理器及存储器,所述存储器存储有程序,并且配置成由所述一个或多个处理器执行以下步骤:
对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书提供的方法,可以通过确定该语音的识别结果对应的语意,更加准确的确定用户需要执行的操作并执行,使得语音操作过程更加灵活的同时,提高了语音操作满足用户需求的概率,进而提高了语音操作的效率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书实施例提供的一种语音操作的过程;
图2为本说明书实施例提供的确定语意对应的操作的示意图;
图3为本说明书实施例提供的确定执行操作的示意图;
图4为本说明书实施例提供的另一种语音操作的过程;
图5为本说明书实施例提供的语音平台的服务器确定应用执行的操作的示意图;
图6为本说明书实施例提供的一种语音操作的装置的结构示意图;
图7为本说明书实施例提供的一种终端的结构示意图;
图8为本说明书实施例提供的一种服务器的结构示意图。
具体实施方式
在现有技术中,基于语音识别进行操作方法中,终端通常通过确定用户语音中的关键词的方式,确定需要执行的操作,并执行。
例如,假设X为一首歌曲的名称,当用户对其使用的终端说:“我要听X”时,该终端可监测该用户输入的音频“我要听X”并进行识别,确定该音频对应的字符为“我要听X”,进一步地,该终端可以确定该字符“我要听X”中的可执行对象为歌曲“X”,则该终端可以通过在本地的播放器应用播放该歌曲“X”。
而若,当该终端中不存在歌曲“X”时,该终端则无法播放该歌曲“X”,于是,通常该终端可以显示搜索引擎对“我要听X”或者歌曲“X”的搜索结果,即,当无法确定出与“我要听X”对应的操作时,将“我要听X”作为搜索关键词,执行搜索操作。或者,该终端返回错误信息,提示用户无法执行该语音操作。
但是,“我要听X”从语意理解来说,还存在“我要下载歌曲X,以便我可以听X”的意义在其中,而由于现有技术仅能根据识别的结果,确定要运行的对象(如上例中的歌曲“X”),所以难以确定用户真实的意图,进而不会确定下载该歌曲“X”的操作,以及进一步地播放该歌曲“X”的操作。
于是,为了解决现有基于识别的操作的技术,在确定用户真实意图上存在缺陷的问题,本说明书实施例提供一种新的语音操作方法。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的一种语音操作的过程,具体包括以下步骤:
S102:操作系统对用户输入的语音进行识别,获得所述语音的识别结果。
在现有技术中,由于基于语音识别的操作过程中,操作发起方通常为用户,而用户通常使用终端发起操作,所以在本说明书中,可由设备的操作系统对用户输入的语音进行识别,该设备可以是该用户使用的终端。其中,所述操作系统为安装在终端上管理和控制该终端的硬件与软件资源的程序。
具体的,首先,由于现有技术中对于设备采集用户输入的语音的技术已经较为成熟,所以本说明书对此不再做具体限定,该终端的操作系统(即,设备的操作系统)可以采用与现有技术相同的方法,确定用户输入的语音(例如,该终端监测用户的操作,并根据该用户的操作通过该终端的传感器采集用户输入的音频,作为语音)。
其次,该终端的操作系统可对该语音进行识别,具体的,该操作系统可在本地对用户输入的语音进行识别,或者该操作系统也可以将该语音发送至识别服务器进行识别,并接收该识别服务器返回的识别结果。具体该操作系统如何进行识别本说明书并不做具体限定,只要该操作系统可以确定该识别结果即可。
最后,由于该用户输入的语音,可视为该用户将需要执行的操作通过语音的形式表达出来,而其中该语音对应的语意,而不是该语音中对应的某个关键词,才是该用户需要执行的操作。于是,在本说明书中,该操作系统可以根据对该语音的识别结果,确定该语音对应的语意。
具体的,由于对该语音的识别结果通常为字符(例如,针对汉语进行识别的服务器对该语音的识别结果,为汉子对应的字符),所以该操作系统可以确定该语音的识别结果对应的字符。并且,由于当用户需要通过语音使该终端执行操作时,该用户输入的语音可是一个语句,所以该识别结果对应的字符也可视为是一个语句,并且,该语句可以具有对应的语意。当然,由于用户在说话时,存在省略主语等习惯、倒叙的习惯等等语言习惯,并且不同的用户可能具有不完全相同的语言习惯,所以该终端确定的该识别结果对应的语句可以是省略句、倒装句等结构的语句,本说明书对此识别结果对应的语句的结构并不做具体限定。
需要说明的是,在本说明书中可由该操作系统执行该语音操作过程,该终端可以是手机、平板电脑、个人电脑等设备,本说明书对此不做具体限定的。
S104:确定所述识别结果对应的语意。
在本说明书一个或多个实施例中,当该终端的操作系统获取了该语音对应的识别结果之后,由于该识别结果可能对应多种语意,而不同的语意可能对应完全不同的操作(如,我要看电影,对应的语意可能是购买电影票,或者线上观看电影等),所以该终端的操作系统还可以根据该识别结果,确定该识别结果对应的语意。
具体的,首先该操作系统可以根据预设的意图分类器,确定该识别结果对应的至少一个意图类型,以及根据预设的参数抽取模型,确定该识别结果对应的操作参数,之后根据该意图类型以及该操作参数,确定该识别结果对应的语意。
其中,该意图分类器可以是支持向量机(Support Vector Machine,SVM),或者是通过大量的语音样本训练出来的分类器,该训练过程可以采用神经网络算法,即,该意图分类器可以是通过神经网络模型训练出来的分类器,或者该训练过程也可以采用退火算法、粒子群算法等,又或者,该意图分类器可以是通过无监督算法训练出来的分类器,如,k-means算法、PCA算法等。
并且,在本说明书实例中,该操作系统可以确定多种意图分类器,通过每一个意图分类器,确定该识别结果是否符合该意图分类器对应的分类,并最后确定该识别结果对应的至少一个意图类别。例如,用户的语音的识别结果为“我要去上海”,则该操作系统可以确定,该识别结果与多个该意图分类器对应的意图类型符合,如,该“我要去上海”可以表示该用户想要购买火车票去上海的意图,也可表示该用户想要开车去上海的意图,或者可以表示该用户想要打车去上海的意图,但是表示为该用户要听名称为《上海》的歌曲,或者要看名称为《上海》的图片的概率较低,即,不符合听歌曲对应的意图类型,或者看图片的意图类型,所以该操作系统,可以确定前三个意图分类器的结果对应的意图类型为与该识别结果对应的意图类型,即,买票的意图类型、开车的意图类型以及约车的意图类型。
另外,该参数抽取模型,同样也可以是根据预先获取的大量训练样本,通过训练得到的,并且可以采用与上述训练该意图分类器的方法,训练得到。当然,本说明书对如何训练该参数抽取模型并不做具体限定,可根据需要以及实际情况,确定参数抽取模型的训练方法,例如,确定该识别结果中的名词、代名词、具有名词属性的词等等方法,确定该识别结果对应的操作参数。
继续沿用上例,在该用户的语音“我要去上海”中,该参数抽取模型可以确定该“上海”为操作参数。
当然,需要说明的是,由于上述确定该识别结果对应的意图类型的过程耗费的资源可能较多,所以也可由服务器根据该识别结果确定该语意,本说明书并不做具体限定是由该终端的操作系统确定该语意还是由该服务器确定该语意,并返回该操作系统,为了方便描述,后续以该终端的操作系统确定该语意为例继续说明。并且,该意图分类器对应的意图类型,可以根据实际应用时的需要,增加或者减少,例如,当开始流行通过网约车出行时,则可在该操作系统中添加识别网约车意图类型的意图分类器。
进一步地,确定该识别结果、该意图类型以及该操作参数,可以由不同的服务器执行,上述任一服务器均可以是单独的一台设备,或者是由多台设备组成的系统,该终端可以是手机、平板电脑、个人电脑等设备,本说明书对此亦不做具体限定。
S106:确定与所述语意对应的操作。
在本说明书一个或多个实施例中,该操作系统在确定了该语意之后,便可以确定该语意对应的操作,以便后续执行该操作。
具体的,首先该操作系统可以根据由工作人员预先设置的各意图类型与操作类型的对应关系,确定与该语意的意图类型对应的操作类型,例如,如表1所示的意图类型与操作类型的对应关系。
表1
其次,根据该操作类型以及该操作参数,确定该语意对应的操作。
由于该操作系统可通过该意图类型,确定不同的操作类型,并且,不同的操作类型仅为一种操作过程,而没有明确的操作目标,所以此时该操作系统还可以将该操作参数作为该操作类型进行操作时的操作目标,根据该操作参数以及该操作类型,确定该语意对应的操作。继续沿用上例,“我要去上海”对应抽取出的参数可以是“上海”,则该操作系统,通过如表1所示的操作类型,可以确定如表2所示的操作,该操作为具有目标的具体操作。
表2
基于步骤S102~S106提供的确定语意对应的操作的示例,本说明书实施例还提供确定语意对应的操作的示意图,如图2所示。
在图2中对用户输入的语音的识别结果为“我要去上海”,并通过意图分类器,可根据“去”确定不同的意图类型:买票、开车以及约车,根据参数提取模型可确定操作参数为“上海”。进一步地,通过不同的意图类型与操作类型的对应关系,可分别确定各意图类型对应的操作类型。最后,再根据操作参数以及确定出的各操作类型,确定该语意对应的操作。
S108:执行所述操作。
在本说明书一个或多个实施例中,当该操作系统确定了该语意对应的操作之后,便可执行该操作。
具体的,该操作系统可先根据预先存储的应用与意图类型的对应关系,确定与该操作的意图类型对应的各应用,再对所述各应用中的至少部分应用,执行该操作。
其中,该操作系统可以预先为每一个应用设置对应的多种标签,并通过各标签与各意图类型的对应关系,确定在步骤S104中确定的至少一个意图类型对应的应用。例如,表3所示的应用与标签之间的对应关系。
表3
通过表3所示的应用于标签之间的对应关系,可见,当意图类型为播放音频时,该意图类型可对应该应用A、该应用B以及该应用C,而当该意图类型为购票时可仅对对应于应用A等等。当然,在实际应用中标签如何设置,以及具体设置为那些,可由工作人员根据具体应用可执行的业务由人工进行设置,本说明书对此不做具体限定。
另外,由于同样一个操作可以通过不同的应用完成,例如,表2中所示的操作:运行购票应用购买本地至上海的车票,可以由第三方购票应用执行,也可由铁道部的12306应用执行,所以该操作系统中可预先存储各意图类型对应的应用,并在确定该语意对应的操作之后,根据该操作对应的意图类型,确定该操作对应的至少一个应用,并确定对该应用执行该操作。
例如,该操作系统在确定要执行运行购票应用购买本地至上海的车票的操作之后,便可根据与该买票意图类型对应的应用,如,12306应用,则该操作系统可对该12306应用执行,运行该12306应用,并购买本地至上海的车票的操作,其中,“本地”与“上海”为该操作的操作参数,可以直接填写至该12306应用的出发地以及目的地栏目中。
基于图2提供的确定语意对应的操作的示意图,本说明书还提供确定执行操作的示意图,如图3所示。
图3为基于图2确定语意对应的各操作,以及预先为各应用设置的标签,确定具体通过何种应用执行确定出的操作的示意图。其中,细线表示各应用于标签之间的对应关系(即,预先为各应用设备的标签),粗线表示确定具体由应用A执行发起至上海的约车任务的操作。
通过如图1所示的操作的方法,设备的操作系统对用户输入的语音进行识别,确定该语音对应的识别结果,并通过预设的意图分类器确定该识别结果对应的至少一个意图类型,通过预设的参数抽取模型确定该识别结果对应的操作参数,并根据该意图类型以及该操作参数,确定该识别结果对应的语意,而在确定该语音的语意之后,可确定该语意的意图类型对应的操作类型,根据该操作类型以及该操作参数,确定该语意对应的操作,最后,根据预先存储的应用与意图类型的对应关系,确定与该操作的意图类型对应的各应用,对该各应用中的至少部分应用,执行该操作。可见,在本说明书所述语音操作过程中,对于用户输入的语音,本说明书不再如现有技术中所使用的仅仅进行识别,并确定单一的操作并该操作,而是通过该识别确定该语音对应的语意,确定该用户需要执行的操作,其中该操作通过包括:意图类型、操作参数、与意图类型对应的应用等数据确定,从而可以确定多种可执行的操作并执行,使得执行的操作符合用户的需要的概率增加,解决的现有技术中通过用户语音执行操作时,存在难以满足用户需求的问题,提高了操作效率。
另外,在本说明书实施例中,该操作系统在确定该识别结果对应多个意图类型时,还可根据预设的各意图类型的权重值,按照权重值从大到小的顺序,确定所述识别结果对应的各意图类型的先后顺序,根据各意图类型分别对应操作类型以及所述操作参数,确定所述语意对应的多个操作,根据各意图类型的先后顺序,确定所述语意对应的各操作的先后顺序,按照各操作的先后顺序,执行至少一个操作。
具体的,该操作系统可以根据该用户的历史行为数据,确定该用户使用各意图类型对应的操作的频率以及次数,并根据该频率以及该次数,设置各意图类型的权重值。其中由于用户使用某一个应用的次数越多,频率越高,则可确定该用户使用该应用的意愿更高,并且更习惯于使用该应用,所以在本说明书中,该操作系统可以采用,以该频率越高以及该次数越多,权重值越高的方法,设置各意图类型的权重值。当然,该操作系统也可以仅采用频率确定各应用的权重值,或者仅采用次数确定各应用的权重值等等,并且,由于现有技术中存在较多成熟的根据用户的历史行为数据,确定用户习惯的方法或者模型,所以在本说明书中,也并不限制该操作系统根据该用户的历史行为数据,采用其他方式确定各应用的权重值。
进一步地,在本说明书实施例中,该操作系统除了可以通过用户的历史行为数据,从该识别结果对应的多个意图类型中,确定至少一个意图并执行对应的操作以外。该操作系统还可以通过确定该操作系统当前所处的场景,确定至少一个意图类型对应的操作,并执行。
通常,由于用户除了通过语音执行操作以外,也可以通过信号输入设备(如,键盘、鼠标、触摸屏幕等),在该操作系统中执行操作。并且,通过本说明书实施例提供的方法,用户在该操作系统中也可通过多次输入语音,执行多个操作。所以该操作系统在步骤S102中对该用户输入的语音进行识别时,该操作系统可以处于多种场景下。例如,该操作系统中没有开启任何应用、该操作系统中当前开启应用A、该操作系统后台开启应用B等等。
而用户在该操作系统中执行操作通常都具有意图。其中,该意图可以具有一定的明确目的的,例如,用户在应用A、应用B、应用C中选择开启了应用C,或者,该用户的操作时没有明确目的性的,如用户在应用A、应用B、应用C中随机开启了应用B。对于前者,用户可能需要通过该应用C执行某些操作,对于后者,用户可能对于通过何种应用执行操作并不在意,或者仅仅是打发时间。当然,无论该用户在执行操作时是否具有明确的目的,在本说明书实施例中,都可以视为该用户通过操作改变了该操作系统所处的场景。
具体的,在本说明书实施例中,该操作系统可将当前显示在该终端的屏幕上显示界面对应的应用视为是该操作系统当前所处的场景。则该操作系统当前所处的场景对可对应于至少一个意图类型。于是,当在步骤S104中,根据该识别结果确定多个意图类型时,可以根据该操作系统当前所处的场景对应的意图类型,判断该操作系统当前所处场景对应的意图类型,是否与该识别结果确定的任一意图类型一致。若是,则该操作系统根据预设的意图类型与操作类型的对应关系,一致的意图类型对应的操作,作为该语音对应的操作。
例如,某用户使用的操作系统中,安装有购物应用D、购物应用E、浏览器F、浏览器G,并且该购物应用D和该购物应用E都可以购买商品H,则该用户可以通过上述任一一个应用购买商品H。而该用户在步骤S102之前,打开了购物应用D,则当该操作系统确定该用户输入的语音的识别结果为“我要买球鞋”时,可以确定该语音识别结果对应的意图类型购买,操作参数为“球鞋”而该购物应用D可执行操作购买球鞋的操作,则该操作系统可以确定该语意对应的操作为通过购物应用D执行购买球鞋的操作。而不是通过购物应用E、浏览器F、浏览器G购买球鞋。
更进一步地,由于不同的应用可调用的数据可能存在差异,所以在本说明书步骤S108中,该操作系统在确定对各应用中的至少部分应用执行该操作时,可以根据各应用可调用的数据确定对哪一部分应用执行该操作。
具体的,由于该操作系统对各应用中的任一应用执行该操作时,操作具体对象可通过该操作参数确定,所以该操作系统可以根据该操作参数,确定各应用中每个应用在执行该操作时所需要调用的数据,并判断该数据是否满足预设条件,若是,则确定该应用为满足预设条件的应用,若否,则确定该应用为不满足预设条件的应用,最后,确定对满足该预设条件的应用,执行所述操作。其中,所述预设条件可以包括:所述数据是否具有版权、所述数据的码率是否大于预设的码率数值、所述数据的像素是否大于预设的像素数值等等。
例如,该操作系统可以针对各应用中的每个应用,根据该操作参数,判断在对该应用执行所述操作时,该应用使用的数据是否具有版权,若是,则确定该应用满足预设条件,若否,则确定该应用不满足预设条件。或者,针对每个应用,根据该操作参数,判断在对该应用执行所述操作时,该应用使用的数据是否大于预设的码率数值,若是,则确定该应用满足预设条件,若否,则确定该应用不满足预设条件。又或者,针对每个应用,根据该操作参数,判断在对该应用执行所述操作时,该应用使用的数据是否大于预设的像素数值,若是,则确定该应用满足预设条件,若否,则确定该应用不满足预设条件。当然,在本说明书中,不同的数据可对应不同的预设条件,所以该操作系统可以根据该操作参数,确定不同的预设条件,确定各应用中的至少部分应用,例如,播放音乐的操作对应的数据可以是一段音频,则该操作系统可以确定采用判断是否具有版权以及判断数据的码率是否大于预设码率数值的方式,确定各应用中满足预设条件的应用,而无需采用判断数据的像素是否大于预设的像素数值的方式,确定满足预设条件的应用。
当然,该操作系统可以同时根据该用户的历史行为数据,以及该预设条件,确定该语意对应的各操作的权重值,以及各操作类型对应的应用,并以此确定执行哪一个操作。
例如,如表3所示的该应用A、该应用B以及该应用C,假设该操作系统确定的操作为,播放歌曲Y,并且该应用A拥有Y歌曲的版权,则该操作系统可以确定该应用A满足预设条件,进而该操作系统可通过该应用A播放该歌曲Y,或者,假设该操作系统确定该用户在该应用A、该应用B以及该应用C中,使用频率最高的应用为应用B,则该操作统可以确定该应用B播放该歌曲Y对应的权重值较高,进而该操作系统可通过该应用B播放该歌曲Y,又或者,假设该应用A、该应用B以及该应用C中,该应用C所拥有的该歌曲Y的码率最高,则该操作统可以确定该应用C满足预设条件,进而该操作系统可通过该应用C播放该歌曲Y,又或者,假设该应用A、该应用B以及该应用C中,该应用A、该应用B具有视频Z的版权,同时该用户使用各应用的频率为该应用C最高、该应用B其次、该应用A最低,则该操作系统可以确定应用A、该应用B满足预设条件,并且该应用B的权重值高于该应用A的权重值,则该操作系统可以确定依次执行通过该应用B播放该视频Z、通过该应用B播放该视频Z等等。
另外,由于在本说明书中,该用户的历史行为数据可以作为该操作系统确定各意图类型的权重值的依据,所以当该操作系统确定根据该用户输入的语音执行操作时,该操作系统还可以根据该操作,更新该用户的历史行为数据,再根据该更新后的历史行为数据,更新与该历史行为数据对应的各意图类型的权重值。
另外,在本说明书实施例中,上述应用可以是已经安装在该设备中的应用,也可以是由服务器提供的服务,例如,服务器通过向该操作系统发送超文本标记语言第5版(HyperText Markup Language 5,HTML5)的网页,以提供业务执行平台,使得不必通过安装于该设备上的应用也可执行业务。也就是说,在本说明书中,并不限定该应用的具体形式,以现有技术为例,该应用可以是安装于该操作系统中的独立应用,也可以是通过该操作系统中具有浏览器内核的应用开启的网页等等,即,该设备中可以不安装应用,而仅通过服务器提供的服务来完成该用户输入的语音所对应的操作。
进一步地,在本说明书实施例中,当该操作系统根据该意图分类器,未确定出该识别结果对应的意图类型时,该操作系统还可以发送预设的语意询问信息,以使得该用户重新输入语音。例如,用户只输入了“上海”的语音,则该操作系统无法仅仅根据一个名词确定该用户的语意,则此时该操作系统还可以发送预先设置的语意询问信息,如播放一段内容为“我不知道您要做什么,请您再说一次”的音频,以使得该用户重新输入语音。
更进一步地,由于用户输入的语音可以对应多种语意,并且每种语意都可以对应多种操作,所以若用户输入的语音较为简短,则该操作系统无法确定准确的操作。例如,用户输入“去上海”的语音,通过该语音的识别结果,该操作系统可以确定用户需要去上海,但是用户的语音可以是坐车去上海、坐飞机去上海、开车去上海等等。甚至若有一个饭馆的名称为“上海”,则该用户的语意还可以包括去上海饭馆吃饭等等。而若仅以用户历史行为数据确定执行的操作,则可能造成多次执行操作的情况出现,而降低操作效率。
于是,在本说明书实施例中,当该操作系统根据该意图分类器,确定出该识别结果对应的多个意图类型时,该操作系统也可以根据该识别结果,发送语意询问信息。以使得用户继续输入语音,并进一步确定用户的意图,以确定更加准确的操作,提高语音操作的效率。
具体的,当该操作系统确定该识别结果对应的多个意图类型时,该操作系统可以根据确定的意图类型和操作参数,向该用户返回语意询问信息。由于该识别结果对应的多个意图类型,在该操作参数下可对应明确的操作(如表2所示),所以该操作系统可以根据确定的意图类型和操作参数,确定该识别结果对应的多个操作,并以反问的形式发送该多个操作作为语意询问信息。
例如,假设根据用户输入的语音,确定了如表2所示的意图类型以及操作,则该操作系统可以发送“您是需要买票去上海、还是开车去上海或者约车去上海?”的语意询问信息。并引导用户继续输入语音,并明确一个意图类型。
需要说明的是,本说明书实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S102和步骤S104的执行主体可以为设备1,步骤S106和步骤S108的执行主体可以为设备2;又比如,步骤S102和步骤S108的执行主体可以为设备1,步骤S104和步骤S106的执行主体可以为设备2;等等。当然,由于在本说明书中,可由设备的操作系统执行上述各步骤,所以本说明书中所述的执行主体可为设备的操作系统。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于图1所示的操作过程,本说明书实施例还提供另一种语音操作的过程,如图4所示。
图4为本说明书实施例提供的另一种语音操作过程的示意图,具体包括以下步骤:
S202:语音平台对用户输入的语音进行识别,获得所述语音的识别结果。
在本说明书一个或多个实施例中,可由语音平台接收终端发送的语音,并对接收到的语音进行识别,获得语音的识别结果。
具体的,可由语音平台的服务器接收终端发送的语音,并由预先配置(或,安装)在该服务器中的程序,对该语音进行识别,并获得该语音的识别结果。
其中,该语音平台的服务器可以是单独的一台设备或者由多台设备组成的系统,该终端可以是手机、个人电脑、平板电脑等设备。并且,该服务器可以采用与现有技术相同的方法,对接收到的语音进行语音识别,本说明书对此不做限制。
S204:确定所述识别结果对应的语意。
在本说明书一个或多个实施例中,该语音平台在确定出语音对应的识别结果之后,便可根据该识别结果确定对应的语音,以便后续可以根据该语意执行后续步骤的操作。
具体的,可如步骤S104中确定语意的过程相同,该语音平台的服务器也可根据预设的意图分类器,确定该识别结果对应的至少一个意图类型,以及根据预设的参数抽取模型,确定该识别结果对应的操作参数,之后根据该意图类型以及该操作参数,确定该识别结果对应的语意。具体过程可参考步骤S104中的描述,本说明书对此不再赘述。
于是,该服务器可以根据识别结果,确定与步骤S202接收到的语音对应的至少一个意图类型以及至少一个操作参数。
进一步地,由于该语音平台为接收用户语音的服务器,并不是作为根据用户的语意执行操作的设备,最终还需要有采集用户的语音的终端执行操作,所以,该语音平台的服务器还可将确定出的意图类型以及操作参数发送至终端,以使得该终端根据接收到的意图类型以及操作参数,确定用户的语意。或者,该服务器也可先根据确定出的意图类型以及操作参数,确定该识别结果对应的语意,再将该语意返回该终端。则该终端后续的操作过程可参考步骤S106~S108。
当然,该服务器也可先不返回确定出的意图类型以及操作参数,而继续执行后续步骤S206,本说明书对此不做具体限定。
S206:确定与所述语意对应的操作。
在本说明书一个或多个实施例中,该服务器在确定了该语意之后,便可以确定该语意对应的操作,以便后续执行该操作。
具体的,首先,该语音平台的服务器中可预先设置有各意图类型与操作类型的对应关系,则该服务器可根据该对应关系,确定与该语意的意图类型对应的操作类型。其次,可再根据该操作类型以及该操作参数,确定该语意对应的操作。
由于服务器可通过该意图类型,确定不同的操作类型,并且,不同的操作类型仅为一种操作过程,而没有明确的操作目标,所以此时服务器还可以将该操作参数作为该操作类型进行操作时的操作目标,根据该操作参数以及该操作类型,确定该语意对应的操作。
具体的过程可参考步骤S106中的描述,本说明书对此不再赘述。
另外,该服务器也可将该语意发送至该终端,其中,该语意中包含服务器确定出的操作参数以及操作类型。则该终端还可先根据接收到的操作参数以及操作类型,再根据预设的意图类型与操作类型的对应关系,之后确定所述意图类型对应的操作类型,最后根据确定出的操作类型以及所述语意包含的所述操作参数,确定所述语意对应的操作。
S208:执行所述操作。
在本说明书一个或多个实施例中,正如前述的,该语音平台并不是操作的具体执行设备,步骤S206确定出的操作的具体执行设备可以是采集用户语音的终端,则可由该终端根据预先存储的应用与操作类型的对应关系,确定与所述操作类型对应的各应用,对所述各应用中的至少部分应用,执行所述操作。具体过程可与步骤S108类似,本说明书实施例不再赘述。
另外,在步骤S206中,可以由服务器确定该语意对应的操作,并发送至该终端,则在步骤S208中,该服务器还可将确定出的该语意对应的操作返回该终端,以使得该终端根据预先存储的应用与操作类型的对应关系,执行操作。
具体的,由于该语意包括确定出的操作参数以及操作类型,所以该服务器可将确定出的操作参数以及操作类型发送至终端,则该终端可以根据预先存储的应用与操作类型的对应关系,确定接收到的各操作类型分别对应的各应用,并对各应用中的至少部分应用,执行操作。
另外,由于该终端中安装的应用于该服务器存储的应用与操作类型的对应关系中的应用可能不完全一致,所以该终端在接收到操作参数以及操作类型之后,还可针对每个操作类型,根据该终端中存储的应用与操作类型的对应关系,判断是否存在与该操作类型对应的应用,若是,则对该操作类型对应的应用,执行操作,若否,则不执行操作。
进一步地,服务器也可通过向终端发送查询请求,查询该终端中安装的应用,以使该终端返回已安装的各应用的信息。于是,服务器也可根据该终端已安装的各应用,确定该终端执行的操作。
具体的,首先,服务器可向终端发送查询信息,以使该终端返回该终端中已安装的应用的信息。其次,该服务器可以根据该终端的已安装的应用的信息,从预先存储的应用与操作类型的对应关系中,选择与已安装的应用的信息对应的操作类型。之后,再根据步骤S206确定的各操作类型,从选择出的各操作类型中,确定相同的操作类型。再后,再根据预先存储的应用与操作类型的对应关系,确定上述相同的操作类型对应的应用,进而确定该终端可通过该相同的操作类型对应的应用执行的操作。上述过程可如图5所示。最后,将确定出的该操作返回该终端,以使根据接收到的应用执行操作的信息,执行操作。
图5为本说明书实施例提供的语音平台的服务器确定向终端返回应用执行的操作的示意图。其中,可见501为服务器获取的终端中安装的应用的列表,502为服务器预先存储的应用与操作类型的对应关系,503为服务器在步骤S206中确定的操作类型,则服务器可根据501与502的交集,确定该终端中已安装的应用可执行的操作类型,即504,之后在根据503与504的交集,确定该用户的语意对应的操作类型,即505。由于在步骤S206中,服务器仅根据识别结结果,确定操作类型,而确定出的操作类型对应的应用,可能并没有在该终端中安装,所以通过503与504的交集,可以根据该终端中已安装的应用可执行的操作类型,以及用户语意对应的操作类型,确定该终端需要执行的操作类型。当然,具体先确定交集的顺序也可根据需要进行设定,例如,先确定502与503的交集,再确定与501的交集,等等,也就是说对上述过程的顺序本说明书并不做限定。
其中,应用的信息可以包括:应用的标识、应用的版本号等等信息,该服务器中可预先存储常见应用与操作类型的对应关系。
基于图1所示的语音操作的过程,本说明书实施例还对应提供一种语音操作的装置,如图6所示。
图6为本说明书实施例提供的一种语音操作的装置的结构示意图,所述装置包括:
识别模块302,设备的操作系统对用户输入的语音进行识别,获得所述语音的识别结果;
语意确定模块304,确定所述识别结果对应的语意;
操作确定模块306,确定与所述语意对应的操作;
执行模块308,执行所述操作。
所述语意确定模块304,根据预设的意图分类器,确定所述识别结果对应的至少一个意图类型;
根据预设的参数抽取模型,确定所述识别结果对应的操作参数;
根据所述意图类型以及所述操作参数,确定所述识别结果对应的语意。
所述装置还包括:
发送模块310,当根据所述意图分类器,未确定出所述识别结果对应的意图类型时,返回预设的语意询问信息,以使得所述用户重新输入语音。
所述操作确定模块306,根据预设的意图类型与操作类型的对应关系,确定所述语意的意图类型对应的操作类型,根据所述操作类型以及所述操作参数,确定所述语意对应的操作。
所述执行模块308,根据预先存储的应用与操作类型的对应关系,确定与所述操作的操作类型对应的各应用,对所述各应用中的至少部分应用,执行所述操作。
当所述语意确定模块304确定所述识别结果对应多个意图类型时,所述操作确定模块306,根据预设的各意图类型的权重值,按照权重值从大到小的顺序,确定所述识别结果对应的各意图类型的先后顺序,依次执行至少一个操作。
所述装置还包括:
权重设置模块312,根据所述用户的历史行为数据,确定所述用户使用各意图类型对应的操作的频率以及次数,根据所述频率以及所述次数,设置各意图类型的权重值。
所述执行模块308,根据所述操作参数,确定所述各应用中满足预设条件的应用,确定对满足所述预设条件的应用,执行所述操作。
所述权重设置模块312,根据所述操作,更新所述用户的历史行为数据,根据更新后的历史行为数据,更新各意图类型的权重值。
识别模块302,接收终端发送的语音,并对所述语音进行识别,其中,所述语音为用户通过终端输入的语音。
操作确定模块306,将所述语意发送至所述终端,以使所述终端根据所述语意包含的意图类型以及预设的意图类型与操作类型的对应关系,确定所述意图类型对应的操作类型,并根据确定出的操作类型以及所述语意包含的所述操作参数,确定所述语意对应的操作。
具体的,上述如图6所示的语音操作的装置可以位于终端或者服务器中,该终端具体可以是手机、平板电脑、个人电脑等终端,该服务器可以是语音平台的服务器,该服务器可以是单独的一台设备或者由多台设备组成的系统,本说明书对此不做限定。
基于图1所示语音操作的方法,本说明书实施例还对应提供一种终端的结构示意图,如图7所示。
图7为本说明书实施例提供的一种终端的结构示意图,所述终端包括一个或多个处理器及存储器,所述存储器存储有程序,所述程序为安装在所述终端上的操作系统,所述操作系统被配置成由所述一个或多个处理器执行以下步骤:
对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
基于如图2所示语音操作的方法,本说明书实施例还对应提供一种服务器的结构示意图,如图8所示。
图8为本说明书实施例提供的一种服务器的结构示意图,所述服务器为语音平台的服务器,所述服务器包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于本说明书实施例提供的移动终端以及服务器而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (17)
1.一种语音操作的方法,其特征在于,所述方法包括:
操作系统对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
2.如权利要求1所述的方法,其特征在于,确定所述语音对应的语意,具体包括:
所述操作系统根据预设的意图分类器,确定所述识别结果对应的至少一个意图类型;
根据预设的参数抽取模型,确定所述识别结果对应的操作参数;
根据所述意图类型以及所述操作参数,确定所述识别结果对应的语意。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
当所述操作系统根据所述意图分类器,未确定出所述识别结果对应的意图类型时,返回预设的语意询问信息,以使得所述用户重新输入语音。
4.如权利要求2所述的方法,其特征在于,确定与所述语意对应的操作,具体包括:
根据预设的意图类型与操作类型的对应关系,确定所述语意的意图类型对应的操作类型;
根据所述操作类型以及所述操作参数,确定所述语意对应的操作。
5.如权利要求2所述方法,其特征在于,执行所述操作,具体包括:
根据预先存储的应用与操作类型的对应关系,确定与所述操作类型对应的各应用;
对所述各应用中的至少部分应用,执行所述操作。
6.如权利要求5所述的方法,其特征在于,执行所述操作,具体包括:
当确定所述识别结果对应多个意图类型时,根据预设的各意图类型的权重值,按照权重值从大到小的顺序,依次执行至少一个操作。
7.如权利要求6所述的方法,其特征在于,预设各意图类型的权重值,具体包括:
根据所述用户的历史行为数据,确定所述用户使用各意图类型对应的操作的频率以及次数;
根据所述频率以及所述次数,设置各意图类型的权重值。
8.如权利要求5所述的方法,其特征在于,对所述各应用中的至少部分应用,执行所述操作,具体包括:
根据所述操作参数,确定所述各应用中满足预设条件的应用;
确定对满足所述预设条件的应用,执行所述操作。
9.如权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述操作,更新所述用户的历史行为数据;
根据更新后的历史行为数据,更新各意图类型的权重值。
10.一种语音操作的方法,其特征在于,所述方法包括:
语音平台对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
11.如权利要求10所述的方法,其特征在于,确定所述语音对应的语意,具体包括:
所述语音平台根据预设的意图分类器,确定所述识别结果对应的至少一个意图类型;
根据预设的参数抽取模型,确定所述识别结果对应的操作参数;
根据所述意图类型以及所述操作参数,确定所述识别结果对应的语意。
12.如权利要求10所述的方法,其特征在于,语音平台对用户输入的语音进行识别,具体包括:
所述语音平台接收终端发送的语音,并对所述语音进行识别;
其中,所述语音为用户通过终端输入的语音。
13.如权利要求12所述的方法,其特征在于,确定与所述语意对应的操作,具体包括:
将所述语意发送至所述终端,以使所述终端根据所述语意包含的意图类型以及预设的意图类型与操作类型的对应关系,确定所述意图类型对应的操作类型,并根据确定出的操作类型以及所述语意包含的所述操作参数,确定所述语意对应的操作。
14.如权利要求13所述的方法,其特征在于,执行所述操作,具体包括:
所述终端根据预先存储的应用与操作类型的对应关系,确定与所述操作类型对应的各应用;
对所述各应用中的至少部分应用,执行所述操作。
15.一种语音操作的装置,其特征在于,所述装置包括:
识别模块,对用户输入的语音进行识别,获得所述语音的识别结果;
语意确定模块,确定所述识别结果对应的语意;
操作确定模块,确定与所述语意对应的操作;
执行模块,执行所述操作。
16.一种终端,所述终端包括一个或多个处理器及存储器,所述存储器存储有程序,所述程序为安装在所述终端上的操作系统,所述操作系统被配置成由所述一个或多个处理器执行以下步骤:
对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
17.一种服务器,所述服务器为语音平台的服务器,包括一个或多个处理器及存储器,所述存储器存储有程序,并且配置成由所述一个或多个处理器执行以下步骤:
对用户输入的语音进行识别,获得所述语音的识别结果;
确定所述识别结果对应的语意;
确定与所述语意对应的操作;
执行所述操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710676838.6A CN109389974A (zh) | 2017-08-09 | 2017-08-09 | 一种语音操作的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710676838.6A CN109389974A (zh) | 2017-08-09 | 2017-08-09 | 一种语音操作的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109389974A true CN109389974A (zh) | 2019-02-26 |
Family
ID=65414053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710676838.6A Pending CN109389974A (zh) | 2017-08-09 | 2017-08-09 | 一种语音操作的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389974A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977211A (zh) * | 2019-03-28 | 2019-07-05 | 联想(北京)有限公司 | 一种数据处理方法及电子设备 |
CN110189752A (zh) * | 2019-03-12 | 2019-08-30 | 广东小天才科技有限公司 | 一种多意图的识别方法及装置、终端设备 |
CN111833872A (zh) * | 2020-07-08 | 2020-10-27 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
CN111968640A (zh) * | 2020-08-17 | 2020-11-20 | 北京小米松果电子有限公司 | 语音控制方法、装置、电子设备及存储介质 |
CN112163086A (zh) * | 2020-10-30 | 2021-01-01 | 海信视像科技股份有限公司 | 多意图的识别方法、显示设备 |
CN112201230A (zh) * | 2019-07-08 | 2021-01-08 | 安徽华米信息科技有限公司 | 语音响应方法、装置、设备以及存储介质 |
CN113870842A (zh) * | 2021-12-02 | 2021-12-31 | 深圳市北科瑞声科技股份有限公司 | 基于权重调节的语音控制方法、装置、设备及介质 |
US11222630B1 (en) * | 2019-09-19 | 2022-01-11 | Amazon Technologies, Inc. | Detecting false accepts in a shopping domain for handling a spoken dialog |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US20130007124A1 (en) * | 2008-05-01 | 2013-01-03 | Peter Sweeney | System and method for performing a semantic operation on a digital social network |
CN103200329A (zh) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | 语音操控方法、移动终端装置及语音操控系统 |
CN103428355A (zh) * | 2012-05-24 | 2013-12-04 | 上海博泰悦臻电子设备制造有限公司 | 基于移动终端的语音控制装置及其语音控制方法 |
US9424840B1 (en) * | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
-
2017
- 2017-08-09 CN CN201710676838.6A patent/CN109389974A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US20130007124A1 (en) * | 2008-05-01 | 2013-01-03 | Peter Sweeney | System and method for performing a semantic operation on a digital social network |
CN103428355A (zh) * | 2012-05-24 | 2013-12-04 | 上海博泰悦臻电子设备制造有限公司 | 基于移动终端的语音控制装置及其语音控制方法 |
US9424840B1 (en) * | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
CN103200329A (zh) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | 语音操控方法、移动终端装置及语音操控系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189752A (zh) * | 2019-03-12 | 2019-08-30 | 广东小天才科技有限公司 | 一种多意图的识别方法及装置、终端设备 |
CN109977211A (zh) * | 2019-03-28 | 2019-07-05 | 联想(北京)有限公司 | 一种数据处理方法及电子设备 |
CN112201230A (zh) * | 2019-07-08 | 2021-01-08 | 安徽华米信息科技有限公司 | 语音响应方法、装置、设备以及存储介质 |
US11222630B1 (en) * | 2019-09-19 | 2022-01-11 | Amazon Technologies, Inc. | Detecting false accepts in a shopping domain for handling a spoken dialog |
CN111833872A (zh) * | 2020-07-08 | 2020-10-27 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
CN111833872B (zh) * | 2020-07-08 | 2021-04-30 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
CN111968640A (zh) * | 2020-08-17 | 2020-11-20 | 北京小米松果电子有限公司 | 语音控制方法、装置、电子设备及存储介质 |
CN112163086A (zh) * | 2020-10-30 | 2021-01-01 | 海信视像科技股份有限公司 | 多意图的识别方法、显示设备 |
CN112163086B (zh) * | 2020-10-30 | 2023-02-24 | 海信视像科技股份有限公司 | 多意图的识别方法、显示设备 |
CN113870842A (zh) * | 2021-12-02 | 2021-12-31 | 深圳市北科瑞声科技股份有限公司 | 基于权重调节的语音控制方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389974A (zh) | 一种语音操作的方法及装置 | |
CN111277706B (zh) | 一种应用推荐方法、装置、存储介质及电子设备 | |
US20210090314A1 (en) | Multimodal approach for avatar animation | |
US10811013B1 (en) | Intent-specific automatic speech recognition result generation | |
CN111695345B (zh) | 文本中实体识别方法、以及装置 | |
US20170357716A1 (en) | Data driven natural language event detection and classification | |
CN116227474B (zh) | 一种对抗文本的生成方法、装置、存储介质及电子设备 | |
CN107562467A (zh) | 页面渲染方法、装置及设备 | |
CN109658455A (zh) | 图像处理方法和处理设备 | |
CN110348462A (zh) | 一种图像特征确定、视觉问答方法、装置、设备及介质 | |
CN109086961A (zh) | 一种信息风险监测方法及装置 | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
JP7488871B2 (ja) | 対話推薦方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム | |
CN115952272B (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
KR102596841B1 (ko) | 사용자의 발화에 응답하여 하나 이상의 아이템을 제공하기 위한 전자 장치 및 방법 | |
CN109271587A (zh) | 一种页面生成方法和装置 | |
CN110502614A (zh) | 文本拦截方法、装置、系统以及设备 | |
CN109144285A (zh) | 一种输入方法和装置 | |
TW202022851A (zh) | 語音互動方法和裝置 | |
CN115082602A (zh) | 生成数字人的方法、模型的训练方法、装置、设备和介质 | |
CN115455161A (zh) | 对话处理方法、装置、电子设备及存储介质 | |
CN110046231A (zh) | 一种客服信息处理方法、服务器和系统 | |
CN109767762A (zh) | 基于语音识别的应用程序控制方法及终端设备 | |
CN108614872A (zh) | 课程内容展示方法及装置 | |
CN113157941B (zh) | 业务特征数据处理、文本生成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190226 |
|
RJ01 | Rejection of invention patent application after publication |