CN109147784B - 语音交互方法、设备以及存储介质 - Google Patents
语音交互方法、设备以及存储介质 Download PDFInfo
- Publication number
- CN109147784B CN109147784B CN201811053135.9A CN201811053135A CN109147784B CN 109147784 B CN109147784 B CN 109147784B CN 201811053135 A CN201811053135 A CN 201811053135A CN 109147784 B CN109147784 B CN 109147784B
- Authority
- CN
- China
- Prior art keywords
- game
- audio data
- server
- voice
- structured data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims description 50
- 230000002452 interceptive effect Effects 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 8
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/215—Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/30—Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
- A63F13/35—Details of game servers
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/40—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
- A63F13/42—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
- A63F13/424—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1081—Input via voice recognition
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/53—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of basic data processing
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
- A63F2300/6072—Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本实施例提供一种语音交互方法、设备以及存储介质,该方法包括:将获取到的用户的音频数据发送给服务器进行语意理解,得到结构化数据,并接收服务器返回的结构化数据,根据正在运行的游戏以及结构化数据控制游戏执行对应的操作,本实施例使用语音识别和语意理解技术,通过终端设备和服务器的通信实现用户在对话式交互下完成游戏的操作,增强了用户的游戏体验,提高了娱乐性和便利性。
Description
技术领域
本发明实施例涉及语音交互技术领域,尤其涉及一种语音交互方法、设备以及存储介质。
背景技术
随着时代的发展,电视画面清晰度有了极大提升,优秀的解析度让电视在播放视频画面时,有了相当大的优势。电视不再是简单的看电视节目,已经发展为视频、娱乐、游戏、电视节目的平台。
现有技术中,搭载度秘操作系统(Duer Operating System,DuerOS)的电视机,集成了智能交互对话系统,用户可以用人类的语言自然的与智能电视进行交互。同时,电视机(Television,TV)端有大屏的特点,也非常适合游戏使用。
然而,目前在电视场景中,通过遥控器按键玩游戏的体验并不好。一些更加适合对话式交互的游戏,在现有技术中的游戏体验不佳,娱乐性及便利性不能很好地满足用户需求。
发明内容
本发明实施例提供一种语音交互方法、设备以及存储介质,用于解决上述方案中互动效果不佳,用户体验和便利性较差的问题。
第一方面,本发明实施例提供一种语音交互方法,包括:
将获取到的用户的音频数据发送至服务器;
接收所述服务器返回的结构化数据,所述结构化数据为所述服务器对所述音频数据进行识别后得到的;
根据正在运行的游戏以及所述结构化数据控制所述游戏执行对应的操作。
在一种具体的实现方式中,所述方法还包括:
在检测到所述游戏启动时,建立所述游戏与语音智能交互系统之间的连接,完成所述游戏与所述语音智能交互系统之间的绑定。
进一步地,所述将获取到的用户的音频数据发送至服务器,包括:
通过所述语音智能交互系统,将所述音频数据发送给所述服务器进行语意理解。
在一种具体的实现方式中,所述方法还包括:
接收智能遥控器或者智能终端设备发送的用户输入的所述音频数据。
进一步地,所述将获取到的用户的音频数据发送至服务器之前,所述方法还包括:
对所述音频数据进行回声消除和/或降噪处理,得到处理后的音频数据。
进一步地,根据正在运行的游戏以及所述结构化数据控制所述游戏执行对应的操作,包括:
在所述语音智能交互系统中,根据当前正在运行的游戏以及所述结构化数据,确定所述结构化数据对应的操作指令;
根据所述操作指令控制所述游戏执行对应的操作。
第二方面,本发明实施例提供一种语音交互方法,包括:
接收终端设备发送的音频数据;
对所述音频数据进行语音理解处理,得到所述音频数据对应的结构化数据;
将所述结构化数据返回所述终端设备。
进一步地,所述对所述音频数据进行语意理解处理,得到所述音频数据对应的结构化数据,包括:
对所述音频数据进行识别处理,得到所述音频数据对应的文字信息;
对所述文字信息进行自然语言处理和语意解释,得到解析内容;
通过模型处理将所述解析内容进行归类,得到所述结构化数据,所述结构化数据用于表示用户想表达的内容对应的机器指令信息。
第三方面,本发明实施例提供一种终端设备,包括:
发送模块,用于将获取到的用户的音频数据发送至服务器;
接收模块,用于接收所述服务器返回的结构化数据,所述结构化数据为所述服务器对所述音频数据进行识别后得到的;
处理模块,用于根据正在运行的游戏以及所述结构化数据控制所述游戏执行对应的操作。
在一种具体的实现方式中,所述处理模块还用于:
在检测到所述游戏启动时,建立所述游戏与语音智能交互系统之间的连接,完成所述游戏与所述语音智能交互系统之间的绑定。
在一种具体的实现方式中,所述发送模块具体用于:
通过所述语音智能交互系统,将所述音频数据发送给所述服务器进行语意理解。
在一种具体的实现方式中,所述接收模块还用于:
接收智能遥控器或者智能终端设备发送的用户输入的所述音频数据。
在一种具体的实现方式中,所述处理模块具体用于:
对所述音频数据进行回声消除和/或降噪处理,得到处理后的音频数据;
将所述处理后的音频数据进行特征提取得到音频特征,并将所述音频特征进行解码,得到所述文字信息。
在一种具体的实现方式中,所述处理模块具体用于:
在所述语音智能交互系统中,根据当前正在运行的游戏以及所述结构化数据,确定所述结构化数据对应的操作指令;
根据所述操作指令控制所述游戏执行对应的操作。
第四方面,本发明实施例提供一种服务器,包括:
接收模块,用于接收终端设备发送的音频数据;
处理模块,用于对所述音频数据进行语音理解处理,得到所述音频数据对应的结构化数据;
发送模块,用于将所述结构化数据返回所述终端设备。
在一种具体的实现方式中,所述处理模块具体用于:
对所述音频数据进行识别处理,得到所述音频数据对应的文字信息;
对所述文字信息进行自然语言处理和语意解释,得到解析内容;
通过模型处理将所述解析内容进行归类,得到所述结构化数据,所述结构化数据用于表示用户想表达的内容对应的机器指令信息。
第五方面,本发明实施例提供一种终端设备,包括:接收器、发送器、处理器、存储器以及计算机程序;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面所述的语音交互方法。
第六方面,本发明实施例提供一种服务器,包括:接收器、发送器、存储器、处理器以及计算机程序;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第二方面所述的语音交互方法。
第七方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面所述的语音交互方法。
第八方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第二方面所述的语音交互方法。
本实施例提供一种语音交互方法、设备以及存储介质,该方法包括:将获取到的用户的音频数据发送给服务器进行语意理解,得到结构化数据,并接收服务器返回的结构化数据,根据正在运行的游戏以及结构化数据控制游戏执行对应的操作,本实施例使用语音识别和语意理解技术,通过终端设备和服务器的通信实现用户在对话式交互下完成游戏的操作,增强了用户的游戏体验,提高了娱乐性和便利性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的语音交互方法的应用场景示意图;
图2为本发明实施例提供的语音交互方法实施例一的交互流程图;
图3为本发明实施例提供的语音交互方法实施例二的交互流程图;
图4为本发明实施例提供的语音交互方法实施例三的交互流程图;
图5为本发明实施例提供的语音交互方法实施例四的交互流程图;
图6为本发明实施例提供的语音识别的流程图;
图7为本发明实施例提供的语意理解的流程图;
图8为本发明实施例提供的语音交互方法实施例五的示意图一;
图9为本发明实施例提供的语音交互方法实施例五的示意图二;
图10为本发明实施例提供的终端设备的结构示意图;
图11为本发明实施例提供的服务器的结构示意图;
图12为本发明实施例提供的终端设备的硬件结构示意图;
图13为本发明实施例提供的服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
现有技术中,以搭载度秘操作系统(Duer Operating System,DuerOS)的电视机为例,集成了智能交互对话系统,用户可以用人类的语言自然的与智能电视进行交互。同时,电视机(Television,TV)端有大屏的特点,也非常适合游戏使用。然而,目前在电视场景中,通过遥控器按键玩游戏的体验并不好。一些更加适合对话式交互的游戏,比如麻将、斗地主,在现有技术中的游戏体验不佳,娱乐性及便利性不能很好地满足用户需求。
针对上述存在的问题,本发明提出一种语音交互方法、设备以及存储介质。将游戏与智能电视的智能交互系统相结合,能够识别通过不同方式所表达的同一游戏术语,将极大的提升游戏的体验,从而可以将智能电视发展为语音交互游戏的平台。下面通过几个具体实施例对该方案进行详细说明。
图1为本发明实施例提供的语音交互方法的应用场景示意图,如图1所示,本实施例提供的系统包括终端设备01和服务器02。其中,终端设备01可以为智能电视、电脑、手机、平板等。本实施例对终端设备01的实现方式不做特别限制,只要该终端设备01能够通过有线或者无线的方式与网络连接,进行数据交互即可。服务器02用于实现语意理解处理,是一种语意理解的云端平台。
在一种具体的实现方式中,用户通过语音遥控器、终端设备01上设置的语音采集装置、或者其他的智能设备向该终端设备01输入音频数据(即语音),该终端设备01可以根据该音频数据发送到服务器02,由服务器02对该音频数据进行语音理解处理,得到对应的结构化数据,再将该结构化数据发送给终端设备01,终端设备01根据结构化数据控制正在运行的应用或者游戏执行对应的操作。
在一种具体的实现方式中,上述实施例中的语音识别过程也可以由终端设备01完成,具体步骤为:终端设备01获取到音频数据,将该音频数据进行语音识别并将其转化成文字信息,再对该文字信息进行语音理解处理,得到对应的结构化数据,并根据该结构化数据控制终端设备01上正在运行的应用或者游戏执行相应的操作。
在一种具体的实现方式中,终端设备01中设置有语音智能交互系统,例如,该语音智能交互系统可以是度秘操作系统(Duer Operating System,DuerOS)。
图2为本发明实施例提供的语音交互方法实施例一的交互流程图,如图2所示,该方案应用在上述图1所示的场景中,语音交互方法的具体实现步骤为:
S101:将获取到的用户的音频数据发送至服务器。
在本步骤中,用户可通过语音采集装置向终端设备输入音频数据,语音采集装置将用户的语音录入为音频数据,终端设备将获取到的接音频数据发送至服务器进行语义分析理解。对服务器来说,则接收终端设备发送的音频数据,后续可以对该音频数据进行语义理解,以了解用户想表达的控制指令。
在该方案的一种具体实现中,语音采集装置可以是终端设备上设置的语音采集装置,例如麦克风等;也可以是其他智能设备;当终端设备是智能电视时,语音采集装置也可以是语音遥控器。
可选的,本步骤中所述的对用户输入的音频数据进行识别处理,得到文字信息,并对文字信息进行语意理解的过程也可以是终端设备执行,例如:终端设备在离线状态,也可以准确对用户的意图进行识别。
S102:对音频数据进行语意理解处理,得到音频数据对应的结构化数据。
在本步骤中,服务器在接收到终端设备发送的音频数据之后,需要对音频数据进行语意理解,确定用户的操作意图。由于同一种意图存在多种的用户表达方式,所以用户输入的音频数据与操作意图之间是多对一的关系,操作意图的识别结果在服务器中体现为结构化数据。
服务器为了能够得到用户的操作意图对应的结构化数据,需要对音频数据进行分析处理,服务器可以根据对音频数据中的声音的频率、幅度、音色等特征以及语音中的文字信息结合起来识别出用户的操作意图,并将该操作意图转换成为结构化数据。服务器也可以直接将该音频数据中的语音转换成文字信息,对文字信息根据关键词等进行语义理解得到用户的操作意图,将操作意图转换成为结构化数据,对此本方案不做限制。
S103:将结构化数据返回终端设备。
在本步骤中,服务器经过对终端设备发送的音频数据的分析处理,服务器理解了用户表达的内容,即得到了音频数据对应的结构化数据,就需要将该结构化数据返回给终端设备,以便终端设备控制语音智能交互系统及游戏应用执行对应的操作,因此服务器需要将该结构化数据返回终端设备,终端设备接收该结构化数据。
S104:根据正在运行的游戏以及结构化数据控制游戏执行对应的操作。
在本步骤中,终端设备接收到服务器返回的结构化数据后,需要根据该结构化指令对当前运行的游戏进行控制,因此终端设备确定具体要控制的游戏,并根据该游戏将该结构化数据生成操作指令,控制当前运行的游戏根据操作指令执行对应的操作。
在该方案的实现中,用户表达与结构化数据之间存在多对一的映射关系,对用户表达的内容进行如上所述的识别、解析、归类后,得到对应的结构化数据,将结构化数据生成操作指令,在游戏中执行该操作指令,即可实现用户以语音交互的方式进行游戏。
本实施例提供的语音交互方法,通过将用户输入的音频数据发送给服务器进行语意理解,并接收服务器返回的结构化数据,根据正在运行的游戏以及结构化数据控制游戏执行对应的操作,本实施例使用语音识别和语意理解技术,通过终端设备和服务器的通信实现用户在对话式交互下完成游戏的操作,增强了用户的游戏体验,提高了娱乐性和便利性。
图3为本发明实施例提供的语音交互方法实施例二的交互流程图,如图3所示,在上述实施例的基础上,该语音交互方法的另一种具体实现包括以下步骤:
S201:在检测到游戏启动时,建立游戏与语音智能交互系统之间的连接,完成游戏与语音智能交互系统之间的绑定。
在本步骤中,语音智能交互系统检测到一个游戏启动后,语音智能交互系统即与该游戏的应用程序建立连接,进行绑定,以便语音智能交互系统能够对该游戏的应用程序传递指令,以及游戏的应用程序能够将执行的结果返回给语音智能交互系统。
S202:通过语音智能交互系统,将音频数据发送给服务器进行语意理解。
在本步骤中,语音智能交互系统可以依据应用场景的不同,对接收到的音频数据进行回声消除和降噪,或者二者之一的处理,将处理后的音频数据发送给服务器,以便服务器所完成的语意理解更加准确。
可选的,上述回声消除可以使用回声消除(Acoustic Echo Cancellation,AEC)算法实现,对音频数据降噪可以使用降噪(Noise Suppression,NS)算法消除环境噪音。
S203:对所述音频数据进行语意理解处理,得到所述音频数据对应的结构化数据。
在本步骤中,服务器在接收到终端设备发送的音频数据之后,需要对音频数据进行语意理解,确定用户的操作意图。由于同一种意图存在多种的用户表达方式,所以用户输入的音频数据与操作意图之间是多对一的关系,操作意图的识别结果在服务器中体现为结构化数据。
服务器为了能够得到用户的操作意图对应的结构化数据,需要对音频数据进行分析处理,服务器可以根据对音频数据中的声音的频率、幅度、音色等特征以及语音中的文字信息结合起来识别出用户的操作意图,并将该操作意图转换成为结构化数据。服务器也可以直接将该音频数据中的语音转换成文字信息,对文字信息根据关键词等进行语义理解得到用户的操作意图,将操作意图转换成为结构化数据,对此本方案不做限制。
S204:将结构化数据返回终端设备。
在本步骤中,服务器经过对终端设备发送的音频数据的分析处理,服务器理解了用户表达的内容,即得到了音频数据对应的结构化数据,就需要将该结构化数据返回给终端设备,以便终端设备控制语音智能交互系统及游戏应用执行对应的操作,因此服务器需要将该结构化数据返回终端设备,终端设备接收该结构化数据。
S205:根据正在运行的游戏以及结构化数据控制游戏执行对应的操作。
在本步骤中,终端设备接收到服务器返回的结构化数据后,需要根据该结构化指令对当前运行的游戏进行控制,因此终端设备确定具体要控制的游戏,并根据该游戏将该结构化数据生成操作指令,控制当前运行的游戏根据操作指令执行对应的操作。
在该方案的实现中,用户表达与结构化数据之间存在多对一的映射关系,对用户表达的内容进行如上所述的识别、解析、归类后,得到对应的结构化数据,将结构化数据生成操作指令,在游戏中执行该操作指令,即可实现用户以语音交互的方式进行游戏。
图4为本发明实施例提供的语音交互方法实施例三的交互流程图,如图4所示,在上述任一实施例的基础上,该语音交互方法的实现过程中,服务器需要对音频数据进行理解处理,得到对应的结构化数据,该过程可以具体实现为以下步骤:
S301:对音频数据进行识别处理,得到音频数据对应的文字信息。
在本步骤中,首先,在对音频数据进行语音识别之前,需要依据不同的应用场景,对接收到的音频数据进行回声消除和降噪,或者二者之一的处理,再对处理后的音频数据进行语音识别,语音识别的过程主要包括提取音频数据中的音频特征,以及对提取的音频特征进行解码处理,最终得到对应的文字信息。
S302:对文字信息进行自然语言处理和语意解释,得到解析内容。
在本步骤中,根据音频数据转化而来的文字信息,经过信息过滤、自动文摘、信息抽取、文本挖掘等技术手段,通过模型完成自然语言处理的过程,再对其进行语意解释,理解文字信息所包含的用户的操作意图,得到带有用户操作意图的解析内容。
S303:通过模型处理将解析内容进行归类,得到结构化数据,结构化数据用于表示用户想表达的内容对应的机器指令信息。
在本步骤中,通过模型建立解析内容与机器指令信息之间的对应关系,这种对应关系普遍为多个带有用户操作意图的解析内容与一个机器指令信息之间的对应关系,因此,可根据模型将解析内容进行归类,得到结构化数据,结构化数据代表了用户想表达的内容所对应的机器指令信息,再将机器指令信息返回给终端设备,使其能够完成对应的指令操作,也被称为结构化数据返回。
图5为本发明实施例提供的语音交互方法实施例四的交互流程图,如图5所示,在上述任一实施例的基础上,该语音交互方法的实现过程中,终端设备接收到服务器返回的结构化数据,根据结构化数据控制游戏执行的过程可以具体实现为以下步骤:
S401:在语音智能交互系统中,根据当前正在运行的游戏以及结构化数据,确定结构化数据对应的操作指令。
在本步骤中,结构化数据返回后,语音智能交互系统根据结构化数据中的机器指令信息,确定出对应当前正在运行的游戏的操作指令,当前运行的游戏可以在启动游戏时与语音智能交互系统进行绑定的游戏,也可以是语音智能交互系统在接收到结构化数据返回后检测出的正在运行的游戏。
S402:根据操作指令控制游戏执行对应的操作。
在本步骤中,根据操作指令的指示,控制游戏执行对应的操作,即可实现用户的操作意图。
在上述几个实施例的基础上,下面通过以终端设备是电视机、服务器为为电视机提供数据分析处理的云端服务器(也称为云端、云平台等)为例,对该语音交互方法进行详细的说明。
图6为本发明实施例提供的语音识别的流程图,如图6所示,语音识别过程包括:采集音频数据;对采集到音频数据做特征提取;将采集到音频特征放到特定的解码器上做解码得到语音识别结果。
1、音频数据采集过程中,录音设备性能越高,音源到设备距离越短,采用有效的麦克风阵列而不是单麦克,会得到特征更完整更利于识别的音频数据,例如,想要支持远场(>5米)唤醒或者识别,使用麦克风阵列的性能会大大优于单麦克性能。
2、对采集到音频数据做特征提取,首先,采集到的音频数据不能直接用来识别,需要根据具体应用场景对音频数据进行回声消除和降噪,或者二者之一的处理,例如在免提或者会议应用的场景下,扬声器的声音会多次反馈到麦克风,这时麦克风采集到的音频数据中会存在声学回声,需要使用AEC算法做回声消除;例如行驶的车辆中采集到的音频数据会有特定的噪音,这时需要对音频数据做降噪算法消除环境噪音。
3、在解码器解码过程中,会使用到声学模型、语言模型和发音词典,声学模型的主要作用是将音频特征转换成音节,语言模型的主要作用是将音节转换成文本,发音词典则提供了一个从音节到文本的映射表。
图7为本发明实施例提供的语意理解的流程图,如图7所示,语意理解包括:自然语言处理、语意解析、解析内容分类和结构化数据返回。
将用户说的话通过语音识别转换成文字后,需要对用户表达的内容进行处理,这种处理叫做自然语言处理,通过自然语言处理后,再通过语意解析解析用户说的话,得到解析的内容;然后,通过模型处理,云端把解析的内容进行归类处理,归类处理后即可将用户的操作意图与机器指令信息对应,再将机器指令信息作为结构化数据返回给电视机,电视机处理结构化数据并执行对应的操作。
图8为本发明实施例提供的语音交互方法实施例五的示意图一,如图8所示,这里以麻将游戏为例说明。
这里以麻将游戏为例进行说明。当登录麻将游戏时,首先游戏应用程序与智能电视端的语音智能交互系统进行绑定;智能电视端收到来自云端的指令后,判断指令是否是麻将游戏的指令,如果是,便将游戏指令传递给麻将游戏。麻将游戏会根据不同的指令执行对应的操作,并将执行的结果返回给语音智能交互系统。当退出麻将游戏时,可以是麻将游戏应用程序与智能交互系统断开连接,即与智能交互系统进行解绑;或者是在退出游戏前先执行解绑操作,与智能交互系统解绑完成后,完成麻将游戏的退出。
在一种具体的实现方式中,上述方案所述的实施例也可以通过图9所示方案实现,图9为本发明实施例提供的语音交互方法实施例五的示意图二。
图9与图8所示方案的差别在于,云端可以用于对音频数据进行语音识别处理,此时语音智能交互系统将获取的音频数据流转给云端即可,由云端对音频数据进行语音识别处理和语意理解处理。
图10为本发明实施例提供的终端设备的结构示意图。如图7所示,该终端设备10包括:
发送模块12,用于将获取到的用户的音频数据发送至服务器;
接收模块13,用于接收所述服务器返回的结构化数据,所述结构化数据为所述服务器对所述音频数据进行识别后得到的;
处理模块11用于根据正在运行的游戏以及所述结构化数据控制所述游戏执行对应的操作。
在一种具体的实现方式中,所述处理模块11还用于:在检测到所述游戏启动时,建立所述游戏与语音智能交互系统之间的连接,完成所述游戏与所述语音智能交互系统之间的绑定。
在一种具体的实现方式中,所述发送模块12具体用于:通过所述语音智能交互系统,将所述音频数据发送给所述服务器进行语意理解。
在一种具体的实现方式中,所述接收模块13还用于:接收智能遥控器或者智能终端设备发送的用户输入的所述音频数据。
在一种具体的实现方式中,所述处理模块11具体用于:对所述音频数据进行回声消除和/或降噪处理,得到处理后的音频数据;将所述处理后的音频数据进行特征提取得到音频特征,并将所述音频特征进行解码,得到所述文字信息。
在一种具体的实现方式中,所述处理模块11具体用于:在所述语音智能交互系统中,根据当前正在运行的游戏以及所述结构化数据,确定所述结构化数据对应的操作指令;根据所述操作指令控制所述游戏执行对应的操作。
本实施例提供的设备,可用于执行上述方法应用于终端设备侧的实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图11为本发明实施例提供的服务器的结构示意图。如图11所示,该服务器20包括:
接收模块21,用于接收终端设备发送的音频数据;
处理模块22,用于对所述音频数据进行语音理解处理,得到所述音频数据对应的结构化数据;
发送模块23,用于将所述结构化数据返回所述终端设备。
在一种具体的实现方式中,所述处理模块22具体用于:对所述音频数据进行识别处理,得到所述音频数据对应的文字信息;对所述文字信息进行自然语言处理和语意解释,得到解析内容;通过模型处理将所述解析内容进行归类,得到所述结构化数据,所述结构化数据用于表示用户想表达的内容对应的机器指令信息。
本实施例提供的设备,可用于执行上述方法应用于服务器侧的实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图12为本发明实施例提供的终端设备的硬件结构示意图。如图9所示,本实施例的终端设备60包括:处理器601以及存储器602;其中
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中终端设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该终端设备还包括总线603,用于连接所述存储器602和处理器601。
图13为本发明实施例提供的服务器的硬件结构示意图。如图10所示,本实施例的服务器70包括:处理器701以及存储器702;其中
存储器702,用于存储计算机执行指令;
处理器701,用于执行存储器存储的计算机执行指令,以实现上述实施例中服务器所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起。
当存储器702独立设置时,该服务器还包括总线703,用于连接所述存储器702和处理器701。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的终端设备侧的语音交互方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的服务器侧的语音交互方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种语音交互方法,其特征在于,包括:
将通过语音智能交互系统获取到的用户的音频数据发送至服务器,所述服务器为用于语意理解的云端平台;
接收所述服务器返回的结构化数据,所述结构化数据为所述服务器对所述音频数据进行识别处理得到解析内容,并根据模型对所述解析内容进行归类得到的;
根据正在运行的游戏以及所述结构化数据生成操作指令,控制所述游戏执行所述操作指令对应的操作,其中,所述语音智能交互系统在所述游戏启动时与所述游戏之间进行了绑定。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到所述游戏启动时,建立所述游戏与语音智能交互系统之间的连接,完成所述游戏与所述语音智能交互系统之间的绑定。
3.根据权利要求2所述的方法,其特征在于,所述将获取到的用户的音频数据发送至服务器,包括:
通过所述语音智能交互系统,将所述音频数据发送给所述服务器进行语意理解。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收智能遥控器或者智能终端设备发送的用户输入的所述音频数据。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述将获取到的用户的音频数据发送至服务器之前,所述方法还包括:
对所述音频数据进行回声消除和/或降噪处理,得到处理后的音频数据。
6.根据权利要求2所述的方法,其特征在于,根据正在运行的游戏以及所述结构化数据控制所述游戏执行对应的操作,包括:
在所述语音智能交互系统中,根据当前正在运行的游戏以及所述结构化数据,确定所述结构化数据对应的操作指令;
根据所述操作指令控制所述游戏执行对应的操作。
7.一种终端设备,其特征在于,包括:
发送模块,用于将通过语音智能交互系统获取到的用户的音频数据发送至服务器,所述服务器为用于语意理解的云端平台;
接收模块,用于接收所述服务器返回的结构化数据,所述结构化数据为所述服务器对所述音频数据识别处理得到解析内容,并根据模型对所述解析内容进行归类得到的;
处理模块,用于根据正在运行的游戏以及所述结构化数据生成操作指令,控制所述游戏执行所述操作指令对应的操作,其中,所述语音智能交互系统在所述游戏启动时与所述游戏之间进行了绑定。
8.根据权利要求7所述的设备,其特征在于,所述处理模块还用于:
在检测到所述游戏启动时,建立所述游戏与语音智能交互系统之间的连接,完成所述游戏与所述语音智能交互系统之间的绑定。
9.根据权利要求7所述的设备,其特征在于,所述发送模块具体用于:
通过所述语音智能交互系统,将所述音频数据发送给所述服务器进行语意理解。
10.根据权利要求7所述的设备,其特征在于,所述接收模块还用于:
接收智能遥控器或者智能终端设备发送的用户输入的所述音频数据。
11.根据权利要求7所述的设备,其特征在于,所述处理模块具体用于:
对所述音频数据进行回声消除和/或降噪处理,得到处理后的音频数据。
12.根据权利要求7所述的设备,其特征在于,所述处理模块具体用于:
在所述语音智能交互系统中,根据当前正在运行的游戏以及所述结构化数据,确定所述结构化数据对应的操作指令;
根据所述操作指令控制所述游戏执行对应的操作。
13.一种终端设备,其特征在于,包括:接收器、发送器、处理器、存储器以及计算机程序;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的语音交互方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的语音交互方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811053135.9A CN109147784B (zh) | 2018-09-10 | 2018-09-10 | 语音交互方法、设备以及存储介质 |
US16/511,414 US11176938B2 (en) | 2018-09-10 | 2019-07-15 | Method, device and storage medium for controlling game execution using voice intelligent interactive system |
JP2019133295A JP7433000B2 (ja) | 2018-09-10 | 2019-07-19 | 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811053135.9A CN109147784B (zh) | 2018-09-10 | 2018-09-10 | 语音交互方法、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109147784A CN109147784A (zh) | 2019-01-04 |
CN109147784B true CN109147784B (zh) | 2021-06-08 |
Family
ID=64824371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811053135.9A Active CN109147784B (zh) | 2018-09-10 | 2018-09-10 | 语音交互方法、设备以及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11176938B2 (zh) |
JP (1) | JP7433000B2 (zh) |
CN (1) | CN109147784B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110327622A (zh) * | 2019-05-09 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 一种游戏控制方法、装置和终端 |
CN110297616B (zh) * | 2019-05-31 | 2023-06-02 | 百度在线网络技术(北京)有限公司 | 话术的生成方法、装置、设备以及存储介质 |
CN111001156A (zh) * | 2019-11-27 | 2020-04-14 | 南京创维信息技术研究院有限公司 | 应用于猜成语游戏的语音处理方法及装置 |
CN113810647A (zh) * | 2020-06-16 | 2021-12-17 | 云米互联科技(广东)有限公司 | 语音对话方法、客户前置设备及存储介质 |
CN111729292B (zh) * | 2020-06-28 | 2021-04-20 | 网易(杭州)网络有限公司 | 文字游戏中数据处理方法及装置 |
CN111833875B (zh) * | 2020-07-10 | 2023-06-06 | 安徽芯智科技有限公司 | 一种嵌入式语音交互系统 |
CN112017663B (zh) * | 2020-08-14 | 2024-04-30 | 博泰车联网(南京)有限公司 | 一种语音泛化方法、装置及计算机存储介质 |
CN114822570B (zh) * | 2021-01-22 | 2023-02-14 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN113207058B (zh) * | 2021-05-06 | 2023-04-28 | 恩平市奥达电子科技有限公司 | 一种音频信号的传输处理方法 |
CN113707144B (zh) * | 2021-08-24 | 2023-12-19 | 深圳市衡泰信科技有限公司 | 一种高尔夫模拟器的控制方法及系统 |
CN113849604A (zh) * | 2021-09-27 | 2021-12-28 | 广东纬德信息科技股份有限公司 | 一种基于nlp的电网调控方法、系统、设备及可存储介质 |
CN114140954A (zh) * | 2021-12-21 | 2022-03-04 | 思必驰科技股份有限公司 | 语音交互方法、电子设备和存储介质 |
CN114553623A (zh) * | 2022-02-08 | 2022-05-27 | 珠海格力电器股份有限公司 | 电器设备的语音交互控制方法及语音交互系统 |
CN114598922A (zh) * | 2022-03-07 | 2022-06-07 | 深圳创维-Rgb电子有限公司 | 语音消息交互方法、装置、设备及存储介质 |
CN114945103B (zh) * | 2022-05-13 | 2023-07-18 | 深圳创维-Rgb电子有限公司 | 语音交互系统及语音交互方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009070615A1 (en) * | 2007-11-26 | 2009-06-04 | Child Warren Daniel | System and method for classification and retrieval of chinese-type characters and character components |
CN101477532A (zh) * | 2008-12-23 | 2009-07-08 | 北京畅游天下网络技术有限公司 | 实现数据存储、读取的方法、装置及系统 |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
WO2015098079A1 (ja) * | 2013-12-26 | 2015-07-02 | パナソニックIpマネジメント株式会社 | 音声認識処理装置、音声認識処理方法、および表示装置 |
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106057200A (zh) * | 2016-06-23 | 2016-10-26 | 广州亿程交通信息有限公司 | 基于语义的交互系统及交互方法 |
CN106941000A (zh) * | 2017-03-21 | 2017-07-11 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音交互方法和装置 |
CN108495160A (zh) * | 2018-02-08 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 智能控制方法、系统、设备及存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3363283B2 (ja) | 1995-03-23 | 2003-01-08 | 株式会社日立製作所 | 入力装置、入力方法、情報処理システムおよび入力情報の管理方法 |
JP3667332B2 (ja) | 2002-11-21 | 2005-07-06 | 松下電器産業株式会社 | 標準モデル作成装置及び標準モデル作成方法 |
JP2007241104A (ja) | 2006-03-10 | 2007-09-20 | Saitama Univ | 適応線形予測器、音声強調装置、及び音声強調システム |
US20080171588A1 (en) * | 2006-11-10 | 2008-07-17 | Bally Gaming, Inc. | Download and configuration server-based system and method with structured data |
JP2011520302A (ja) * | 2007-12-10 | 2011-07-14 | デラックス・デジタル・スタジオズ,インコーポレイテッド | マルチメディアデバイスを連係させる際に使用するための方法およびシステム |
WO2011082521A1 (en) * | 2010-01-06 | 2011-07-14 | Zoran Corporation | Method and apparatus for voice controlled operation of a media player |
US20120030712A1 (en) * | 2010-08-02 | 2012-02-02 | At&T Intellectual Property I, L.P. | Network-integrated remote control with voice activation |
JP5751110B2 (ja) | 2011-09-22 | 2015-07-22 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
CN104050966B (zh) * | 2013-03-12 | 2019-01-01 | 百度国际科技(深圳)有限公司 | 终端设备的语音交互方法和使用该方法的终端设备 |
US9395904B2 (en) * | 2013-08-26 | 2016-07-19 | Venuenext, Inc. | Providing game and facility information to in-stadium spectators |
US10630773B2 (en) * | 2015-11-12 | 2020-04-21 | Nvidia Corporation | System and method for network coupled cloud gaming |
US20190019512A1 (en) * | 2016-01-28 | 2019-01-17 | Sony Corporation | Information processing device, method of information processing, and program |
US10853747B2 (en) * | 2016-10-03 | 2020-12-01 | Google Llc | Selection of computational agent for task performance |
US10127908B1 (en) * | 2016-11-11 | 2018-11-13 | Amazon Technologies, Inc. | Connected accessory for a voice-controlled device |
CN107115668A (zh) * | 2017-04-25 | 2017-09-01 | 合肥泽诺信息科技有限公司 | 基于语音识别的网络游戏在线交互系统 |
-
2018
- 2018-09-10 CN CN201811053135.9A patent/CN109147784B/zh active Active
-
2019
- 2019-07-15 US US16/511,414 patent/US11176938B2/en active Active
- 2019-07-19 JP JP2019133295A patent/JP7433000B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009070615A1 (en) * | 2007-11-26 | 2009-06-04 | Child Warren Daniel | System and method for classification and retrieval of chinese-type characters and character components |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
CN101477532A (zh) * | 2008-12-23 | 2009-07-08 | 北京畅游天下网络技术有限公司 | 实现数据存储、读取的方法、装置及系统 |
WO2015098079A1 (ja) * | 2013-12-26 | 2015-07-02 | パナソニックIpマネジメント株式会社 | 音声認識処理装置、音声認識処理方法、および表示装置 |
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106057200A (zh) * | 2016-06-23 | 2016-10-26 | 广州亿程交通信息有限公司 | 基于语义的交互系统及交互方法 |
CN106941000A (zh) * | 2017-03-21 | 2017-07-11 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音交互方法和装置 |
CN108495160A (zh) * | 2018-02-08 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 智能控制方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7433000B2 (ja) | 2024-02-19 |
US11176938B2 (en) | 2021-11-16 |
CN109147784A (zh) | 2019-01-04 |
US20190341047A1 (en) | 2019-11-07 |
JP2019185062A (ja) | 2019-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147784B (zh) | 语音交互方法、设备以及存储介质 | |
CN110069608B (zh) | 一种语音交互的方法、装置、设备和计算机存储介质 | |
CN108133707B (zh) | 一种内容分享方法及系统 | |
CN111049996B (zh) | 多场景语音识别方法及装置、和应用其的智能客服系统 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN110914828B (zh) | 语音翻译方法及翻译装置 | |
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
US11631408B2 (en) | Method for controlling data, device, electronic equipment and computer storage medium | |
JP2020529032A (ja) | 音声認識翻訳方法及び翻訳装置 | |
CN109036396A (zh) | 一种第三方应用的交互方法及系统 | |
WO2020078300A1 (zh) | 一种终端投屏的控制方法和终端 | |
US20210343270A1 (en) | Speech translation method and translation apparatus | |
CN108882101B (zh) | 一种智能音箱的播放控制方法、装置、设备及存储介质 | |
CN110517692A (zh) | 热词语音识别方法和装置 | |
CN112653902A (zh) | 说话人识别方法、装置及电子设备 | |
CN106896933B (zh) | 将语音输入转换成文本输入的方法、装置和语音输入设备 | |
CN112687286A (zh) | 音频设备的降噪模型的调整方法和装置 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN108304434B (zh) | 信息反馈方法和终端设备 | |
CN112581965A (zh) | 转写方法、装置、录音笔和存储介质 | |
CN110970030A (zh) | 一种语音识别转换方法及系统 | |
US20210373670A1 (en) | Vibration control method and system for computer device | |
CN110516043A (zh) | 用于问答系统的答案生成方法和装置 | |
US8965760B2 (en) | Communication device, method, non-transitory computer readable medium, and system of a remote conference | |
CN114694629A (zh) | 用于语音合成的语音数据扩增方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210513 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Applicant after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |