CN107773982A - 游戏语音交互方法及装置 - Google Patents

游戏语音交互方法及装置 Download PDF

Info

Publication number
CN107773982A
CN107773982A CN201710986387.6A CN201710986387A CN107773982A CN 107773982 A CN107773982 A CN 107773982A CN 201710986387 A CN201710986387 A CN 201710986387A CN 107773982 A CN107773982 A CN 107773982A
Authority
CN
China
Prior art keywords
game
text
speech data
vector
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710986387.6A
Other languages
English (en)
Other versions
CN107773982B (zh
Inventor
梅林海
陈志刚
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xunfei Jizhi Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710986387.6A priority Critical patent/CN107773982B/zh
Publication of CN107773982A publication Critical patent/CN107773982A/zh
Application granted granted Critical
Publication of CN107773982B publication Critical patent/CN107773982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供一种游戏语音交互方法及装置,属于语音识别领域。该方法包括:获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量;基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。

Description

游戏语音交互方法及装置
技术领域
本发明实施例涉及语音识别领域,更具体地,涉及一种游戏语音交互方法及装置。
背景技术
目前在网络游戏中,游戏玩家通常需要与其它玩家进行互动,如通过键盘或者游戏手柄等输入设备,与其它游戏玩家进行文字聊天或者其它类型的交互。而随着语音识别技术的逐渐兴起,在游戏中进行语音交互成为游戏玩家越来越青睐的互动方式。相关技术中在进行游戏语音交互时,通常是获取游戏玩家的语音数据,并将该游戏玩家的语音数据直接转发给其它游戏玩家,并直接播放给其它游戏玩家或者转化为文本显示给其它游戏玩家。由于游戏语音交互过程仅限于语音数据的转发播放或转发显示,从而游戏语音交互的功能比较局限。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的游戏语音交互及装置。
根据本发明实施例的第一方面,提供了一种游戏语音交互方法,该方法包括:
获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量,语音数据由游戏玩家输入,文本元素为字或词,文本向量为字向量或词向量;
基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
本发明实施例提供的方法,通过获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量。基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,该方法还包括:
对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,提取播放时间段内的语音数据对应的声学特征;和/或,
对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征;
相应地,基于每一文本向量,生成特征矩阵,包括:
基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征,包括:
从播放时间段内选取任意时刻作为目标时刻,获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态,将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征,其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,基于每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵,包括:
将每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征进行横向拼接,得到对应的行向量;
将得到的所有行向量进行纵向拼接,得到对应的特征矩阵。
结合第一方面的第一种可能的实现方式,在第五种可能的实现方式中,将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令之后,还包括:
若操作指令为游戏指令,则根据操作指令操控游戏角色,若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据,则确定游戏玩家待沟通的目标游戏玩家,并将语音数据转发至目标游戏玩家。
结合第一方面的第一种可能的实现方式,在第六种可能的实现方式中,将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令之前,还包括:
获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;
基于每一训练文本向量对预设分类模型进行训练,以得到指令识别模型。
结合第一方面的第二种可能的实现方式,在第七种可能的实现方式中,将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令之前,还包括:
获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;
获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征;
基于每一训练文本向量,以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练,以得到指令识别模型。
根据本发明实施例的第二方面,提供了一种游戏语音交互装置,该装置包括:
转化模块,用于获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量,语音数据由游戏玩家输入,文本元素为字或词,文本向量为字向量或词向量;
指令识别模块,用于基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,该装置还包括:
提取模块,用于对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,提取播放时间段内的语音数据对应的声学特征;和/或,
获取模块,用于对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征;
相应地,指令识别模块,还用于基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,获取模块,用于从播放时间段内选取任意时刻作为目标时刻,获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态,将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征,其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。
根据本发明实施例的第三方面,提供了一种游戏语音交互设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的游戏语音交互方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的游戏语音交互方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明实施例。
附图说明
图1为本发明实施例的一种游戏语音交互方法的流程示意图;
图2为本发明实施例的一种游戏语音交互系统的结构示意图;
图3为本发明实施例的一种游戏语音交互装置的框图;
图4为本发明实施例的一种游戏语音交互设备的框图。
具体实施方式
下面结合附图和实施例,对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例,但不用来限制本发明实施例的范围。
目前语音识别技术逐渐融入到游戏领域中,游戏玩家通常通过语音交互实现与其它游戏玩家之间的互动,如何基于语音识别技术提高游戏体验逐渐成为人们关注的问题。
针对上述情形,本发明实施例提供了一种游戏语音交互方法。该方法可应用于带有语音采集功能的终端或系统,本发明实施例对此不作具体限定。参见图1,该方法包括:101、获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量,语音数据由游戏玩家输入,文本元素为字或词,文本向量为字向量或词向量;102、基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
在执行上述步骤101之前,可先通过音频采集模块实时采集语音数据。相应地,游戏玩家可通过音频采集模块实现语音输入。在采集到语音数据后,可将语音数据送至语音识别模块以对语音数据进行识别,并转化得到相应的文本数据,本发明实施例对此不作具体限定。在获取语音数据对应的文本数据后,可将文本数据转化为文本向量,也即将自然语言符号化,变为计算机可识别的数据。其中,文本向量可以为字向量或词向量。相应地,在将文本数据转化为文本向量时,若需将文本数据转化为字向量,则可先将文本数据拆分成一个个字(文本元素),再将拆分得到的一个个字转化为字向量。若需将文本数据转化为词向量,则可先将文本数据拆分成一个个词(文本元素),再将拆分得到的一个个词转化为词向量。其中,文本向量可以均为行向量,行向量的列数(也即维数)可根据需求设置,如采用128维,本发明实施例对此不作具体限定。
通过上述过程在得到文本向量后,为了便于后续通过指令识别模型识别出语音数据对应的操作指令,可先基于每一文本向量,生成特征矩阵。具体地,由于每一文本向量均为行向量,从而可将每一文本向量进行纵向拼接,即可得到特征矩阵。其中,特征矩阵的列数即为文本向量的维度,特征矩阵的行数即为文本向量的个数。
在生成特征矩阵后,可将特征矩阵输入至指令识别模型,以输出语音数据的操作指令。其中,指令识别模型为预先训练得到,通过指令识别模型即可确定游戏玩家在输入语音数据时,是想要操控其对应的游戏角色行动,还是想要与其它游戏玩家沟通。相应地,操作指令可以为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
本发明实施例提供的方法,通过获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量。基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。
基于上述实施例中的内容,若仅将文本向量作为输入量,通过指令识别模型识别语音数据对应的操作指令,可能会存在识别不够精准的问题。例如,若游戏玩家输入的语音数据为“前进”,单从字面上理解,可以理解为该游戏玩家是想要其操控的游戏角色前进,也可以理解为该游戏玩家是想要其队友(其它游戏玩家)前进。基于上述情形,除了提取文本向量以作为识别特征之外,作为一种可选实施例,本发明还提供了一种特征提取方法,包括但不限于:对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,提取播放时间段内的语音数据对应的声学特征;和/或,
对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征。
在提取到上述两种特征后,可同样作为指令识别模型的输入量。相应地,本发明实施例还提供了一种生成特征矩阵的方法,包括但不限于:基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵。
其中,声学特征可以为感知线性预测(Perceptual Linear Predictive,PLP)特征和/或Pitch基音周期特征,本发明实施例对此不作具体限定。声学特征主要用于表示游戏玩家在输入语音数据时的情感表现,如游戏玩家在输入语音数据时可能会是感叹语气、还可能是疑问语气,通过声学特征即可捕捉游戏玩家说话时的情感。
场景特征可用于描述游戏玩家操控的游戏角色在游戏场景中的状态,本发明实施例对此不作具体限定。需要说明的是,由于游戏场景中游戏玩家操控的游戏角色是不断在行动的,也即游戏角色在游戏场景中的状态也在不断变化,从而在获取游戏角色所处游戏场景的场景特征时,可按照游戏玩家输入语音数据时的时间段来实时获取,也即按照每一文本元素在语音数据中的播放时间段,获取游戏角色在该播放时间段内所处游戏场景的场景特征。其中,游戏场景可以为具体的游戏地图,也可以为游戏地图中的某一地形区域等,本发明实施例对此不作具体限定。
通过提取到的声学特征和/或场景特征,可更精准地识别出游戏玩家输入的语音数据其对应的含义。例如,若游戏玩家输入的语音数据是“前进”,而此时该游戏玩家操控的游戏角色周围没有其它游戏角色(场景特征),从而可基本确定游戏玩家输入的语音数据是想要操控游戏角色行动,而非与其它游戏玩家沟通。再例如,通过提取到的声学特征,若确定游戏玩家在输入语音数据时说话的语气是疑问语气,由于游戏玩家若需要操控游戏角色行动,通常并不会输入疑问句,从而可基本确定游戏玩家输入的语音数据是想要与其它游戏玩家沟通,而非操控游戏角色行动。
本发明实施例提供的方法,通过提取每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵,从而后续将包含场景特征和/或声学特征的特征矩阵作为指令识别模型的输入量,以输出语音数据对应的操作指令。由于基于场景特征兼顾了游戏场景中游戏角色的状态,基于声学特征兼顾了游戏玩家输入语音数据时的情感表现,从而能够更精准地识别出游戏玩家的操作需求。
基于上述实施例中的内容,由于如何提取场景特征决定了后续识别精准度的高低,从而作为一种可选实施例,本发明实施例还提供了一种提取场景特征的方法,包括但不限于:从播放时间段内选取任意时刻作为目标时刻,获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态,将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征,其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。
在上述提取过程中,主要是将游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征。由于上述数据都是瞬时的,而任一文本元素在语音数据中的播放时间段是一段时间,从而可以先从播放时间段内选取任意时刻作为目标时刻,并提取目标时刻下的上述数据。
其中,当游戏场景为地图时,游戏场景的场景标识可以为地图标识,本发明实施例对此不作具体限定。其它游戏角色可以为其它游戏玩家在游戏中操控的游戏角色,还可以为非游戏玩家控制角色等,本发明实施例对此不作具体限定。另外,游戏角色与其它游戏角色之间的距离可以为欧式距离,在获取两者间的距离时可根据两者的坐标来获取。
以游戏场景为地图为例,游戏玩家控制的游戏角色坐标通常使用地图X-Y坐标来表示。其中,原点为地图左上角,X为基于游戏地图的横坐标,Y为基于游戏地图的纵坐标。游戏角色与其它游戏角色的具体坐标值可由系统直接获取到。例如,游戏角色A坐标为(xa,ya),游戏角色B坐标为(xb,yb),则游戏角色A与游戏角色B之间的欧式距离为:
另外,游戏角色与其它游戏角色之间的互动状态,可以包括攻击状态或被攻击状态。当然,互动状态还可以包括交易状态、等待状态等,本发明实施例对此不作具体限定。游戏角色的互动状态可通过游戏引擎直接获取,互动状态可以用布尔值1或0来表示,如对于游戏角色是否被攻击,1表示该游戏角色正在被攻击,0表示该游戏角色未被攻击。基于上述内容,游戏角色所处游戏场景的场景特征可如下表1所示:
表1
本发明实施例提供的方法,通过从播放时间段内选取任意时刻作为目标时刻,获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态,将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征。由于游戏玩家在输入语音数据时,通常需要依据游戏场景中其操控的游戏角色与其它游戏角色之间的互动情况,从而将上述数据作为场景特征,在一定程度上能够反映游戏玩家输入语音数据的操作意图,进而后续可基于场景特征更精准地识别出游戏玩家的操作需求。
基于上述实施例的内容,本发明实施例不对基于每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵的方式作具体限定,包括但不限于:
将每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征进行横向拼接,得到对应的行向量;
将得到的所有行向量进行纵向拼接,得到对应的特征矩阵。
例如,以文本数据为“都往前上,前进”为例。若拆分成的文本元素为字,则可以拆分为“都”、“往”、“前”、“上”、“前”、“进”。相应地,字向量依次为E1、E2、E3、E4、E5、E6。PLP特征依次为PLP1、PLP2、PLP3、PLP4、PLP5、PLP6。Pitch特征依次为Pitch1、Pitch2、Pitch3、Pitch4、Pitch5、Pitch6。场景特征依次为Sceneinfo1、Sceneinfo2、Sceneinfo3、Sceneinfo4、Sceneinfo5、Sceneinfo6。
将文本元素“都”对应的字向量“E1”、PLP特征“PLP1”、Pitch特征“Pitch1”,场景特征“Sceneinfo1”进行横向拼接,可得到一个行向量。按照相同的方式对剩下的五组数据进行横向拼接,可得到五个行向量。将上述6个行向量进行纵向拼接,即可得到对应的特征矩阵。如下表2所示:
表2
E1 PLP1 Pitch1 Sceneinfo1
E2 PLP2 Pitch2 Sceneinfo2
E3 PLP3 Pitch3 Sceneinfo3
E4 PLP4 Pitch4 Sceneinfo4
E5 PLP5 Pitch5 Sceneinfo5
E6 PLP6 Pitch6 Sceneinfo6
需要说明的是,上述PLP特征的维度可以为39维,Pitch特征的维度可以为1维,字向量的维度可以为128维。由上表1可知,场景特征同样可以采用行向量表示,对应的维度可以为10维,本发明实施例对此不作具体限定。在得到上述特征矩阵后,可将该特征矩阵输入至指令识别模型中,输出语音数据对应的操作指令。
基于上述实施例的内容,在输出语音数据对应的操作指令后,可根据操作指令实现对应的语音操作。作为一种可选实施例,本发明实施例还提供了一种通过操作指令实现不同语音操作的方法,包括但不限于:若操作指令为游戏指令,则根据操作指令操控游戏角色,若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据,则确定游戏玩家待沟通的目标游戏玩家,并将语音数据转发至目标游戏玩家。
其中,游戏指令可以为用于控制游戏角色前进的前进指令、用于控制游戏角色后退的后退指令,用于控制游戏角色释放技能的技能释放指令等,本发明实施例不对游戏指令的类型作具体限定。通过上述指令识别模型的输入及输出过程,可直接得到游戏指令的具体类型,并按照游戏指令的具体类型操控游戏角色行动。对于游戏指令之外的非游戏指令,可进一步判断语音数据是否为游戏玩家之间的语音沟通数据,如果是的话,则可先确定与游戏玩家当前正在互动的其它游戏玩家,并作为游戏玩家待沟通的目标游戏玩家,从而将语音数据转发至该目标游戏玩家。
本发明实施例提供的方法,通过在操作指令为游戏指令时,根据操作指令操控游戏角色。若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据,则确定游戏玩家待沟通的目标游戏玩家,并将语音数据转发至目标游戏玩家。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。
基于上述实施例的内容,若特征矩阵中仅包含文本向量,作为一种可选实施例,本发明实施例还提供了一种对应的指令识别模型训练方法,包括但不限于:获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;基于每一训练文本向量对预设分类模型进行训练,以得到指令识别模型。
其中,预设分类模型可以为卷积神经网络模型CNN,支持向量机模型SVM等,本发明实施例对此不作具体限定。具体训练时,可先标注每一训练语音数据的游戏指令类型。例如,对于任一训练语音数据,可先标注该训练语音数据是前进指令、还是后退指令、还是技能释放指令,还是除上述游戏指令之外的非游戏指令。在确定每一训练语音数据的游戏指令类型后,可根据每一训练语音数据对应的训练文本向量及游戏指令类型,对预设分类模型进行训练,以得到指令识别模型。
另外,在获取训练语音数据对应的训练文本向量时,可参考上述实施例中获取文本向量的过程,此处不再赘述。需要说明的是,由上述实施例的内容可知,在通过指令识别模型输出语音数据对应的操作指令时,可先基于每一文本向量,生成特征矩阵,从而本发明实施例在对预设分类模型进行训练之前,也可先基于每一训练文本向量,生成训练特征矩阵,从而根据训练特征矩阵对预设分类模型进行训练。
基于上述实施例的内容,若特征矩阵中包含文本向量,以及文本向量对应的声学特征和/或场景特征,作为一种可选实施例,本发明实施例还提供了一种对应的指令识别模型训练方法,包括但不限于:获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征;基于每一训练文本向量,以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练,以得到指令识别模型。
其中,在获取训练语音数据对应的训练文本向量、训练文本向量的声学特征和/或训练文本向量对应的场景特征时,可参考上述实施例中的内容,此处不再赘述。需要说明的是,由上述实施例的内容可知,在通过指令识别模型输出语音数据对应的操作指令时,可先基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵,从而本发明实施例在对预设分类模型进行训练之前,也可先基于每一训练文本向量,以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征,生成训练特征矩阵,从而根据训练特征矩阵对预设分类模型进行训练。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例还提供了一种带有语音采集功能的游戏语音交互系统,该游戏语音交互系统可用于执行上述任意方法实施例所提供的游戏语音交互方法。参见图2,该系统包括:硬件输入模块、音频采集模块、语音活动检测(Voice ActivityDetection,VAD)模块、特征提取模块、语音识别模块、指令识别模块及数据传输模块。
其中,硬件输入模块与音频采集模块均可作为外界输入模块。硬件输入模块可以为传统的游戏输入设备,如键盘、游戏手柄等。音频采集模块可以为音频采集设备,如麦克风、头戴式耳机等。而VAD模块、特征提取模块、语音识别模块、指令识别模块及数据传输模块可集成在一个芯片中,本发明实施例对此不作具体限定。
VAD模块可以通过VAD检测,将语音数据分段,得到语音有效活动帧数据。
语音识别模块可以用于将语音数据转换为文本数据。
特征提取模块可以用于提取语音数据或游戏角色相关的特征,可包括上述实施例中的文本向量、以及文本向量对应的声学特征和/或场景特征。
指令识别模块可用于根据特征提取模块提取到的特征,识别语音数据对应的操作指令,即执行上述实施例中指令识别模型的功能。其中,操作指令可以为游戏指令或非游戏指令。
数据传输模块可用于当操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据,将语音数据或者语音数据识别后的文本数据转发至目标游戏玩家。
本发明实施例提供的方法,通过获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量。基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。
基于上述实施例的内容,本发明实施例提供了一种游戏语音交互装置,该游戏语音交互装置用于执行上述方法实施例中的游戏语音交互方法。参见图3,该装置包括:
转化模块301,用于获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量,语音数据由游戏玩家输入,文本元素为字或词,文本向量为字向量或词向量;
指令识别模块302,用于基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
作为一种可选实施例,该装置还包括:
提取模块,用于对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,提取播放时间段内的语音数据对应的声学特征;和/或,
第一获取模块,用于对于任一文本元素,基于任一文本元素在语音数据中的播放时间段,获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征;
相应地,指令识别模块302,还用于基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵。
作为一种可选实施例,第一获取模块,用于从播放时间段内选取任意时刻作为目标时刻,获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态,将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征,其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。
作为一种可选实施例,指令识别模块302,还用于将每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征进行横向拼接,得到对应的行向量;将得到的所有行向量进行纵向拼接,得到对应的特征矩阵。
作为一种可选实施例,该装置还包括:
操控模块,用于当操作指令为游戏指令时,则根据操作指令操控游戏角色,若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据,则确定游戏玩家待沟通的目标游戏玩家,并将语音数据转发至目标游戏玩家。
作为一种可选实施例,该装置还包括:
第二获取模块,用于获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;
第一训练模块,用于基于每一训练文本向量对预设分类模型进行训练,以得到指令识别模型。
作为一种可选实施例,该装置还包括:
第三获取模块,用于获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;
第四获取模块,用于获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征;
第二训练模块,用于基于每一训练文本向量,以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练,以得到指令识别模型。
本发明实施例提供的装置,通过获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量。基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。
其次,通过提取每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵,从而后续将包含场景特征和/或声学特征的特征矩阵作为指令识别模型的输入量,以输出语音数据对应的操作指令。由于基于场景特征兼顾了游戏场景中游戏角色的状态,基于声学特征兼顾了游戏玩家输入语音数据时的情感表现,从而能够更精准地识别出游戏玩家的操作需求。
另外,通过从播放时间段内选取任意时刻作为目标时刻,获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态,将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征。由于游戏玩家在输入语音数据时,通常需要依据游戏场景中其操控的游戏角色与其它游戏角色之间的互动情况,从而将上述数据作为场景特征,在一定程度上能够反映游戏玩家输入语音数据的操作意图,进而后续可基于场景特征更精准地识别出游戏玩家的操作需求。
最后,通过在操作指令为游戏指令时,根据操作指令操控游戏角色。若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据,则确定游戏玩家待沟通的目标游戏玩家,并将语音数据转发至目标游戏玩家。由于游戏玩家通过语音输入的方式,除了实现与其它游戏玩家之间互相沟通之外,还可实现对其对应的游戏角色进行操控,从而在便捷游戏玩家操控的同时,拓展了游戏中语音交互的功能,进而在整体层面上提升了游戏玩家的体验。
本发明实施例提供了一种游戏语音交互设备。参见图4,该设备包括:处理器(processor)401、存储器(memory)402和总线403;
其中,处理器401及存储器402分别通过总线403完成相互间的通信;
处理器401用于调用存储器402中的程序指令,以执行上述实施例所提供的游戏语音交互方法,例如包括:获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量,语音数据由游戏玩家输入,文本元素为字或词,文本向量为字向量或词向量;基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的游戏语音交互方法,例如包括:获取对语音数据进行语音识别后得到的文本数据,将文本数据拆分为文本元素,并将每一文本元素转化为文本向量,语音数据由游戏玩家输入,文本元素为字或词,文本向量为字向量或词向量;基于每一文本向量,生成特征矩阵,并将特征矩阵输入至指令识别模型,输出语音数据对应的操作指令,操作指令为游戏指令或非游戏指令,游戏指令用于操控游戏玩家对应的游戏角色,非游戏指令用于游戏玩家之间互相沟通。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的信息交互设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (12)

1.一种游戏语音交互方法,其特征在于,包括:
获取对语音数据进行语音识别后得到的文本数据,将所述文本数据拆分为文本元素,并将每一文本元素转化为文本向量,所述语音数据由所述游戏玩家输入,所述文本元素为字或词,所述文本向量为字向量或词向量;
基于每一文本向量,生成特征矩阵,并将所述特征矩阵输入至指令识别模型,输出所述语音数据对应的操作指令,所述操作指令为游戏指令或非游戏指令,所述游戏指令用于操控所述游戏玩家对应的游戏角色,所述非游戏指令用于游戏玩家之间互相沟通。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于任一文本元素,基于所述任一文本元素在所述语音数据中的播放时间段,提取所述播放时间段内的语音数据对应的声学特征;和/或,
对于任一文本元素,基于所述任一文本元素在所述语音数据中的播放时间段,获取所述游戏玩家对应的游戏角色在所述播放时间段内所处游戏场景的场景特征;
相应地,所述基于每一文本向量,生成特征矩阵,包括:
基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵。
3.根据权利要求2所述的方法,其特征在于,所述获取所述游戏玩家对应的游戏角色在所述播放时间段内所处游戏场景的场景特征,包括:
从所述播放时间段内选取任意时刻作为目标时刻,获取所述游戏角色在所述目标时刻下所处游戏场景的场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态,将所述场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征,所述其它游戏角色与所述游戏角色处于同一游戏场景且位于以所述游戏角色为中心的预设范围内。
4.根据权利要求2所述的方法,其特征在于,所述基于每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵,包括:
将每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征进行横向拼接,得到对应的行向量;
将得到的所有行向量进行纵向拼接,得到对应的特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述将所述特征矩阵输入至指令识别模型,输出所述语音数据对应的操作指令之后,还包括:
若所述操作指令为游戏指令,则根据所述操作指令操控所述游戏角色,若所述操作指令为非游戏指令且所述语音数据为游戏玩家之间的语音沟通数据,则确定所述游戏玩家待沟通的目标游戏玩家,并将所述语音数据转发至所述目标游戏玩家。
6.根据权利要求1所述的方法,其特征在于,所述将所述特征矩阵输入至指令识别模型,输出所述语音数据对应的操作指令之前,还包括:
获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;
基于每一训练文本向量对预设分类模型进行训练,以得到所述指令识别模型。
7.根据权利要求2所述的方法,其特征在于,所述将所述特征矩阵输入至指令识别模型,输出所述语音数据对应的操作指令之前,还包括:
获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据,并获取每一训练语音数据对应的训练文本向量;
获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征;
基于每一训练文本向量,以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练,以得到所述指令识别模型。
8.一种游戏语音交互装置,其特征在于,包括:
转化模块,用于获取对语音数据进行语音识别后得到的文本数据,将所述文本数据拆分为文本元素,并将每一文本元素转化为文本向量,所述语音数据由所述游戏玩家输入,所述文本元素为字或词,所述文本向量为字向量或词向量;
指令识别模块,用于基于每一文本向量,生成特征矩阵,并将所述特征矩阵输入至指令识别模型,输出所述语音数据对应的操作指令,所述操作指令为游戏指令或非游戏指令,所述游戏指令用于操控所述游戏玩家对应的游戏角色,所述非游戏指令用于游戏玩家之间互相沟通。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
提取模块,用于对于任一文本元素,基于所述任一文本元素在所述语音数据中的播放时间段,提取所述播放时间段内的语音数据对应的声学特征;和/或,
获取模块,用于对于任一文本元素,基于所述任一文本元素在所述语音数据中的播放时间段,获取所述游戏玩家对应的游戏角色在所述播放时间段内所处游戏场景的场景特征;
相应地,所述指令识别模块,还用于基于每一文本向量,以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征,生成特征矩阵。
10.根据权利要求9所述的装置,其特征在于,所述获取模块,用于从所述播放时间段内选取任意时刻作为目标时刻,获取所述游戏角色在所述目标时刻下所处游戏场景的场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态,将所述场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征,所述其它游戏角色与所述游戏角色处于同一游戏场景且位于以所述游戏角色为中心的预设范围内。
11.一种游戏语音交互设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201710986387.6A 2017-10-20 2017-10-20 游戏语音交互方法及装置 Active CN107773982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710986387.6A CN107773982B (zh) 2017-10-20 2017-10-20 游戏语音交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710986387.6A CN107773982B (zh) 2017-10-20 2017-10-20 游戏语音交互方法及装置

Publications (2)

Publication Number Publication Date
CN107773982A true CN107773982A (zh) 2018-03-09
CN107773982B CN107773982B (zh) 2021-08-13

Family

ID=61435139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710986387.6A Active CN107773982B (zh) 2017-10-20 2017-10-20 游戏语音交互方法及装置

Country Status (1)

Country Link
CN (1) CN107773982B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
CN109903767A (zh) * 2019-04-02 2019-06-18 广州视源电子科技股份有限公司 一种语音处理方法、装置、设备及系统
CN110322895A (zh) * 2018-03-27 2019-10-11 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN110992947A (zh) * 2019-11-12 2020-04-10 北京字节跳动网络技术有限公司 一种基于语音的交互方法、装置、介质和电子设备
CN111214830A (zh) * 2018-11-23 2020-06-02 奇酷互联网络科技(深圳)有限公司 电子设备及其游戏音效的处理方法、具有存储功能的装置
CN111292742A (zh) * 2020-01-14 2020-06-16 京东数字科技控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN111399629A (zh) * 2018-12-29 2020-07-10 Tcl集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111462738A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 语音识别方法及装置
CN111988537A (zh) * 2020-07-28 2020-11-24 扬州哈工科创机器人研究院有限公司 智能设备、矩阵墙语音交互控制的系统和方法
CN112201235A (zh) * 2020-09-16 2021-01-08 华人运通(上海)云计算科技有限公司 游戏终端的控制方法、装置、车载系统和车辆
CN112221162A (zh) * 2020-10-15 2021-01-15 蒋海斌 基于人工智能识别的网络游戏交互方法及智能游戏平台
CN112221139A (zh) * 2020-10-22 2021-01-15 腾讯科技(深圳)有限公司 一种游戏的信息交互方法、装置和计算机可读存储介质
CN112257434A (zh) * 2019-07-02 2021-01-22 Tcl集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
CN112295220A (zh) * 2020-10-29 2021-02-02 北京字节跳动网络技术有限公司 Ar游戏控制方法、装置、电子设备及存储介质
CN113707144A (zh) * 2021-08-24 2021-11-26 深圳市衡泰信科技有限公司 一种高尔夫模拟器的控制方法及系统
CN114020910A (zh) * 2021-11-03 2022-02-08 北京中科凡语科技有限公司 基于TextCNN的医疗文本特征提取方法及装置
WO2022147692A1 (zh) * 2021-01-06 2022-07-14 京东方科技集团股份有限公司 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
CN114768246A (zh) * 2022-06-21 2022-07-22 欢喜时代(深圳)科技有限公司 一种游戏人机互动方法及其系统
CN114931747A (zh) * 2022-07-25 2022-08-23 深圳市景创科技电子股份有限公司 一种游戏控制器和智能语音控制方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200521727A (en) * 2003-12-31 2005-07-01 Gau Yi Lin Game operation method with natural language
CN101648077A (zh) * 2008-08-11 2010-02-17 巍世科技有限公司 语音指令游戏控制装置及其方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN102945673A (zh) * 2012-11-24 2013-02-27 安徽科大讯飞信息科技股份有限公司 一种语音指令范围动态变化的连续语音识别方法
CN103226949A (zh) * 2011-09-30 2013-07-31 苹果公司 在虚拟助理中使用情境信息来促进命令的处理
CN104409076A (zh) * 2014-12-02 2015-03-11 上海语知义信息技术有限公司 用于棋牌类游戏的语音操控系统及语音操控方法
CN104464755A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 语音评测方法和装置
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN105830150A (zh) * 2013-12-18 2016-08-03 微软技术许可有限责任公司 基于意图的用户体验
US20170083194A1 (en) * 2009-07-08 2017-03-23 Steelseries Aps Apparatus and method for managing operations of accessories
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200521727A (en) * 2003-12-31 2005-07-01 Gau Yi Lin Game operation method with natural language
CN101648077A (zh) * 2008-08-11 2010-02-17 巍世科技有限公司 语音指令游戏控制装置及其方法
US20170083194A1 (en) * 2009-07-08 2017-03-23 Steelseries Aps Apparatus and method for managing operations of accessories
CN103226949A (zh) * 2011-09-30 2013-07-31 苹果公司 在虚拟助理中使用情境信息来促进命令的处理
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN102945673A (zh) * 2012-11-24 2013-02-27 安徽科大讯飞信息科技股份有限公司 一种语音指令范围动态变化的连续语音识别方法
CN105830150A (zh) * 2013-12-18 2016-08-03 微软技术许可有限责任公司 基于意图的用户体验
CN104409076A (zh) * 2014-12-02 2015-03-11 上海语知义信息技术有限公司 用于棋牌类游戏的语音操控系统及语音操控方法
CN104464755A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 语音评测方法和装置
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322895A (zh) * 2018-03-27 2019-10-11 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
CN111214830A (zh) * 2018-11-23 2020-06-02 奇酷互联网络科技(深圳)有限公司 电子设备及其游戏音效的处理方法、具有存储功能的装置
CN111399629B (zh) * 2018-12-29 2022-05-03 Tcl科技集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111399629A (zh) * 2018-12-29 2020-07-10 Tcl集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111462738B (zh) * 2019-01-18 2024-05-03 阿里巴巴集团控股有限公司 语音识别方法及装置
CN111462738A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 语音识别方法及装置
CN109903767A (zh) * 2019-04-02 2019-06-18 广州视源电子科技股份有限公司 一种语音处理方法、装置、设备及系统
CN109903767B (zh) * 2019-04-02 2021-10-22 广州视源电子科技股份有限公司 一种语音处理方法、装置、设备及系统
CN112257434A (zh) * 2019-07-02 2021-01-22 Tcl集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
CN112257434B (zh) * 2019-07-02 2023-09-08 Tcl科技集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
CN110992947B (zh) * 2019-11-12 2022-04-22 北京字节跳动网络技术有限公司 一种基于语音的交互方法、装置、介质和电子设备
CN110992947A (zh) * 2019-11-12 2020-04-10 北京字节跳动网络技术有限公司 一种基于语音的交互方法、装置、介质和电子设备
CN111292742A (zh) * 2020-01-14 2020-06-16 京东数字科技控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN111988537A (zh) * 2020-07-28 2020-11-24 扬州哈工科创机器人研究院有限公司 智能设备、矩阵墙语音交互控制的系统和方法
CN112201235A (zh) * 2020-09-16 2021-01-08 华人运通(上海)云计算科技有限公司 游戏终端的控制方法、装置、车载系统和车辆
CN112201235B (zh) * 2020-09-16 2022-12-27 华人运通(上海)云计算科技有限公司 游戏终端的控制方法、装置、车载系统和车辆
CN112221162B (zh) * 2020-10-15 2021-05-14 武汉卧友网络科技有限公司 基于人工智能识别的网络游戏交互方法及智能游戏平台
CN112221162A (zh) * 2020-10-15 2021-01-15 蒋海斌 基于人工智能识别的网络游戏交互方法及智能游戏平台
CN112221139B (zh) * 2020-10-22 2023-02-24 腾讯科技(深圳)有限公司 一种游戏的信息交互方法、装置和计算机可读存储介质
CN112221139A (zh) * 2020-10-22 2021-01-15 腾讯科技(深圳)有限公司 一种游戏的信息交互方法、装置和计算机可读存储介质
CN112295220A (zh) * 2020-10-29 2021-02-02 北京字节跳动网络技术有限公司 Ar游戏控制方法、装置、电子设备及存储介质
WO2022147692A1 (zh) * 2021-01-06 2022-07-14 京东方科技集团股份有限公司 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
CN113707144A (zh) * 2021-08-24 2021-11-26 深圳市衡泰信科技有限公司 一种高尔夫模拟器的控制方法及系统
CN113707144B (zh) * 2021-08-24 2023-12-19 深圳市衡泰信科技有限公司 一种高尔夫模拟器的控制方法及系统
CN114020910A (zh) * 2021-11-03 2022-02-08 北京中科凡语科技有限公司 基于TextCNN的医疗文本特征提取方法及装置
CN114768246A (zh) * 2022-06-21 2022-07-22 欢喜时代(深圳)科技有限公司 一种游戏人机互动方法及其系统
CN114768246B (zh) * 2022-06-21 2022-08-30 欢喜时代(深圳)科技有限公司 一种游戏人机互动方法及其系统
CN114931747A (zh) * 2022-07-25 2022-08-23 深圳市景创科技电子股份有限公司 一种游戏控制器和智能语音控制方法

Also Published As

Publication number Publication date
CN107773982B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN107773982A (zh) 游戏语音交互方法及装置
CN107423274A (zh) 基于人工智能的比赛解说内容生成方法、装置及存储介质
WO2018019116A1 (zh) 基于自然语言的人机交互方法及系统
CN107481713A (zh) 一种混合语言语音合成方法及装置
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN107766506A (zh) 一种基于层次化注意力机制的多轮对话模型构建方法
CN108447471A (zh) 语音识别方法及语音识别装置
CN101391146A (zh) 通过触觉插入来增强娱乐性的方法或设备
CN108305643A (zh) 情感信息的确定方法和装置
CN107437415A (zh) 一种智能语音交互方法及系统
CN107240395A (zh) 一种声学模型训练方法和装置、计算机设备、存储介质
CN104751227B (zh) 用于语音识别的深度神经网络的构建方法及系统
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN102831891A (zh) 一种语音数据处理方法及系统
CN107195299A (zh) 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN108986564A (zh) 一种基于智能交互的报读控制方法及电子设备
CN109326162A (zh) 一种口语练习自动评测方法及装置
Gemmeke et al. A self-learning assistive vocal interface based on vocabulary learning and grammar induction
CN110232918A (zh) 一种无人机地面控制站语音控制系统及控制方法
CN110070869A (zh) 语音互动生成方法、装置、设备和介质
CN115731915A (zh) 对话机器人的主动对话方法、装置、电子设备及存储介质
KR102485903B1 (ko) 사용자의 선호도를 분석하는 대화 매칭 장치 및 방법
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN110990550B (zh) 一种话术生成的方法、基于人工智能的解说方法及装置
CN113946604A (zh) 分阶段围棋教学方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220324

Address after: No.326, No.8, Third Street, international logistics zone, Tianjin Binhai New Area pilot free trade zone (Airport Economic Zone)

Patentee after: Tianjin Xunfeiji Technology Co.,Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: IFLYTEK Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240322

Address after: 100039 Xunfei Building, Building 7, Dongbei Wangxi Road, Haidian District, Beijing

Patentee after: Beijing Xunfei Jizhi Technology Co.,Ltd.

Country or region after: China

Address before: No.326, No.8, Third Street, international logistics zone, Tianjin Binhai New Area pilot free trade zone (Airport Economic Zone)

Patentee before: Tianjin Xunfeiji Technology Co.,Ltd.

Country or region before: China