CN113011198B - 一种信息交互方法、装置及电子设备 - Google Patents

一种信息交互方法、装置及电子设备 Download PDF

Info

Publication number
CN113011198B
CN113011198B CN202110247295.2A CN202110247295A CN113011198B CN 113011198 B CN113011198 B CN 113011198B CN 202110247295 A CN202110247295 A CN 202110247295A CN 113011198 B CN113011198 B CN 113011198B
Authority
CN
China
Prior art keywords
information
user
recognition
preset
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110247295.2A
Other languages
English (en)
Other versions
CN113011198A (zh
Inventor
孙建伟
赵茜
罗讷
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202110247295.2A priority Critical patent/CN113011198B/zh
Publication of CN113011198A publication Critical patent/CN113011198A/zh
Application granted granted Critical
Publication of CN113011198B publication Critical patent/CN113011198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种信息交互方法、装置及电子设备。在本实施例中,通过获取用户输入信息,对用户输入信息进行识别,获取信息识别结果,响应于信息识别结果为用户输入信息具有预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。

Description

一种信息交互方法、装置及电子设备
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种信息交互方法、装置及电子设备。
背景技术
智能设备的应用极大地方便了用户的生活,例如但由于老人等用户由于记忆力等因素并不能很好地适应智能设备中较为复杂地交互操作,造成了这类用户的不便,例如网约车领域,由于老人用户可能具有记忆力下降等情况,这给老人用户造成了叫车困扰,且有些老人用户不适应智能手机中的APP的复杂交互操作,更增加了老人用户的出行难度。
发明内容
有鉴于此,本发明实施例提供一种信息交互方法、装置及电子设备,以实现一键式创建任务,简化任务创建的操作复杂度,提高用户体验感。
第一方面,本发明实施例提供一种信息交互方法,所述方法包括:
获取用户输入信息;
对所述用户输入信息进行识别,获取信息识别结果;
响应于所述信息识别结果为所述用户输入信息具有预设信息,根据所述预设信息对应的行程信息创建任务;
向用户终端发送任务创建结果。
第二方面,本发明实施例提供一种信息交互装置,所述装置包括:
信息获取单元,被配置为获取用户输入信息;
识别单元,被配置为对所述用户输入信息进行识别,获取信息识别结果;
任务创建单元,被配置为响应于所述信息识别结果为所述用户输入信息具有预设信息,根据所述预设信息对应的行程信息创建任务;
发送单元,被配置为向用户终端发送任务创建结果。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例第一方面所述的方法。
第五方面,本发明实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如本发明实施例第一方面所述的方法。
在本实施例中,通过获取用户输入信息,对用户输入信息进行识别,获取信息识别结果,响应于信息识别结果为用户输入信息具有预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的信息交互方法的流程图;
图2是本发明实施例的语音识别方法的流程图;
图3是本发明实施例的一种预设信息设置方法的流程图;
图4是本发明实施例的一种信息交互方法的示意图;
图5是本发明实施例的另一种信息交互方法的示意图;
图6是本发明实施例的又一种信息交互方法的示意图;
图7是本发明实施例的信息交互装置的示意图;
图8是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在以下实施例中,主要以通过网约车应用领域中的任务创建进行具体描述,应理解,本实施例并不对应用领域进行限制,其他应用领域,例如快递等物流领域均可采用本实施例的交互方法进行任务创建。
应理解,在本实施例的任一实施方式中,在获得用户授权后,获取的相关用户信息,例如账户信息、或位置信息等,以便于为用户创建相关任务等。
图1是本发明实施例的信息交互方法的流程图。如图1所示,本发明实施例的信息交互方法包括以下步骤:
步骤S110,获取用户输入信息。其中,用户通过用户终端上传信息,以使得服务平台获取用户输入信息。
在一种可选的实现方式中,用户通过用户终端与服务平台建立通信连接,在通信连接建立成功后,通过语音方式向服务平台发送音频信息(也即用户输入信息),或者基于服务平台的语音指示,通过触发按键发送按键信息(也即用户输入信息)。可选的,用户可以通过用户终端拨打服务平台的固定电话以建立通信连接,也可以通过用户终端中的服务平台APP,或者用户终端中任意APP中嵌入的服务平台小程序中的通信方式,建立用户终端与服务平台之间的通信连接。应理解,本实施例并不对用户终端与服务平台之间建立通信的方式进行限制。
在另一种可选的实现方式中,用户可以通过用户终端中的服务平台APP(或用户终端中任意APP中嵌入的服务平台小程序)界面中的文本输入框或者语音输入框向服务平台发送信息(也即用户输入信息)。
在本实施例中,提供了多种方式使得服务平台获取用户输入信息,提高了用户的便利性。
步骤S120,对用户输入信息进行识别,获取信息识别结果。在本实施例中,信息识别结果为用户输入信息包括预设信息、或者用户输入信息不包括预设信息。
在一种可选的实现方式中,用户输入信息为音频信息,步骤S120可以包括:将用户输入信息输入至语音解码器中进行识别,获取对应的文本信息,对该对应的文本信息进行语义识别,获取信息识别结果。可选的,音频信息可以为用户通过用户终端与服务平台建立通话后输入的音频信息,也可以为用户通过服务平台应用程序(服务平台APP或其他APP中嵌入的服务平台小程序)界面中对应的语音输入框输入的音频信息。
在一种可选的实现方式中,语音解码器包括静态语音模型。其中,静态语音模型通过语料数据训练获得,也即,静态语音模型通过全量语料训练获得。由此,可以较为准确地进行语音识别。
在另一种可选的实现方式中,语音解码器包括动态语音模型。其中,动态语音模型基于用户对应的至少一个预设信息获得的语音识别模型。在本实施例中,用户预先设置有至少一个预设信息,每个预设信息具有对应的行程信息。其中,行程信息可以包括行程路线。以网约车应用场景为例,行程信息还可以包括网约车类型等信息,例如出租车、快车、拼车等。预设信息可以为“回家”,对应的行程路线可以为“A大厦—B小区东门”,网约车类型可以为出租车。可选的,动态语音模型基于对应的动态图获得,该动态图为根据用户对应的至少一个预设信息生成的基于字及该字之间跳转关系的图。可选的,该动态图根据用户设置的预设信息的不同进行实时更新,以提高动态语音模型的准确性。在本实施例中,在采用动态语音模型进行语音识别时,预设信息的权重会高于非预设信息,由此,可以提高预设信息识别的准确性。
图2是本发明实施例的语音识别方法的流程图。在又一种可选的实现方式中,语音解码器包括动态语音模型和静态语音模型。如图4所示,将用户输入信息输入至语音解码器中进行识别,获取对应的文本信息包括以下步骤:
步骤S210,将用户输入信息分别输入至动态语音模型和静态语音模型中进行识别,获得动态识别信息和对应的得分、以及静态识别信息和对应的得分。可选的,采用动态语音模型和静态语音模型对用户输入信息进行WFST(weighted finite-statetransducer,加权有限状态转换器)解码,以获取对应的动态识别信息和静态识别信息。
步骤S220,判断动态识别信息的得分是否大于或等于静态识别信息的得分。若动态识别信息的得分大于或等于静态识别信息的得分,执行步骤S230,否则执行步骤S240。
步骤S230,响应于动态识别信息的得分大于或等于所述静态识别信息的得分,将动态识别信息确定为用户输入的音频信息对应的文本信息。
步骤S230,响应于动态识别信息的得分小于静态识别信息的得分,将静态识别信息确定为用户输入的音频信息对应的文本信息。
在本实施例中,由于动态语音模型基于用户设置的预设信息训练获得,静态语音模型基于全量语料数据训练获得,因此,在动态语音模型的解码输出中预设信息的权重大于静态语音模型的解码输出中预设信息的权重。由此,若用户输入的音频信息包含预设信息,则采用动态语音模型进行解码处理后输出的动态识别信息的得分大于采用静态语音模型进行解码处理后输出的静态识别信息的得分。可选的,模型输出信息的得分基于解码输出中各个词或字的权重确定。也就是说,在本实施例中,若用户输入的音频信息中包含预设信息,则动态语音模型的解码准确性会大于静态识别模型,若用户输入的音频信息中不包含预设信息,则动态语音模型的解码准确性小于静态识别模型。
由此,本实施例通过采用基于预设信息的动态识别模型和基于全量语料数据的静态识别模型对用户输入的音频信息进行解码处理,并通过比较模型输出的动态识别信息的得分和静态识别信息的得分确定音频信息对应的文本信息,可以基于动态识别模型提高用户输入信息中包含预设信息时,预设信息的识别效果,以使得在用户发音不准确或者环境信息嘈杂的情况下也能确保能够准确识别预设信息,同时基于静态识别模型保证了用户输入信息中不包含预设信息时的语音识别效果,进而保证了用户和服务平台之间的有效交互,提高了用户体验感。
在一种可选的实现方式中,通过NLU(Natural Language Understanding,自然语音理解技术)模型对用户输入的音频信息对应的文本信息进行语义识别,将语义识别的结果与用户设置的至少一个预设信息进行模糊匹配,以确认用户输入的音频信息中是否包含有预设信息。
在另一种可选的实现方式中,用户输入信息为文本信息。可选的,文本信息可以为用户通过用户终端中的服务平台APP(或用户终端中任意APP中嵌入的服务平台小程序)界面中的文本输入框输入的文本信息。
在一种可选的实现方式中,步骤S120可以包括:对用户输入信息进行语义识别,获取所述信息识别结果。可选的,通过NLU模型对用户输入的文本信息进行语义识别,将语义识别的结果与用户设置的至少一个预设信息进行模糊匹配,以确认用户输入的音频信息中是否包含有预设信息。
在又一种可选的实现方式中,用户输入信息为按键信息。可选的,在用户通过用户终端与服务平台成功建立通信连接后,基于服务平台的语音提示,通过触发按键发送按键信息(也即用户输入信息)。例如,用户通过用户终端拨打服务平台的固定电话,在电话接通后,基于服务平台的语音提示信息,通过拨号键输入对应的按键,以发送按键信息。其中,用户设置的各预设信息分别关联有对应的按键,各预设信息具有对应的行程信息。
步骤S130,响应于信息识别结果为用户输入信息具有预设信息,根据该预设信息对应的行程信息创建任务。
可选的,若用户输入信息为音频信息或文本信息,响应于用户输入信息具有预设信息,根据该预设信息对应的行程信息创建任务。其中,行程信息可以包括行程路线。以网约车应用场景为例,行程信息还可以包括网约车类型等信息,例如出租车、快车、拼车等。假设用户设置的一个预设信息为“回家”,“回家”对应的行程路线为“A大厦—B小区东门”,若用户输入的音频信息或文本信息为“我要回家”,其具有预设信息“回家”,则根据“回家”对应的行程路线为“A大厦—B小区东门”创建网约车任务,也即生成网约车订单,以供网约车司机通过司机终端接单,从而无需复杂的交互过程便能够实现网约车订单创建,为老人用户等群体提供了遍历,进而提高了用户体验感。
步骤S140,向用户终端发送任务创建结果。可选的,若用户通过用户终端与服务平台采用通话方式建立通信,则可以向用户终端播报任务创建结果。例如,您的从A大厦到B小区东门的网约车订单以创建,正在等待司机接单等。若用户采用其他方式输入信息,也可以通过服务平台对应的应用程序或者用户终端中的其他应用程序中嵌入的服务平台小程序提示用户任务创建结果以及任务的当前状态。
在本实施例中,用户预先设置至少一个预设信息,并将各预设信息分别与对应的行程信息进行绑定,由此,在任务创建过程中,用户可以通过包括预设信息的输入语音信息、文本信息或按键信息,以实现一键式创建任务,从而简化了任务创建的操作复杂度,提高了用户体验感。
图3是本发明实施例的一种预设信息设置方法的流程图。在一种可选的实现方式中,通过用户输入的语音信息设置预设信息。如图3所示,本实施例的预设信息设置方法包括以下步骤:
步骤S310,获取用户语音信息。可选的,可以在用户终端中的服务平台应用程序或其他应用程序中嵌入的服务平台小程序中的对应语音输入框中,输入用户语音信息,例如在网约车应用程序中的对应语音输入框中,输入语音“我要回家,从A大厦到B小区东门”。
步骤S320,对用户语音信息进行识别,获得用户语音信息对应的文本信息。其中,用户语音信息对应的文本信息包括起始地、目的地以及预设信息。例如,对语音信息“我要回家,从A大厦到B小区东门”进行识别,可以提取出预设信息“回家”、起始地“A大厦”和目的地“B小区东门”。
可选的,可以根据预先训练的语音识别解码器对用户语音信息进行识别,以获取该用户语音信息对应的文本信息。可选的,语音识别解码器根据带有标注的音频训练集进行监督训练获得。其中,音频训练集中的语句中标注有预设信息、起始地和目的地。
步骤S330,将预设信息与起始地、目的地对应的行程信息进行绑定。
由此,本实施例可以采用语音输入方式设置预设信息,并创建预设信息与对应的行程信息的绑定关系,由此,可以极大地方便老人用户等不便于打字的群体,提高了用户体验感。
可选的,在服务平台识别出对应的文本信息后,将用户语音信息对应的文本信息通过用户终端进行播报确认,在用户确认后,将预设信息与起始地、目的地对应的行程信息进行绑定,以避免语音识别过程中出现错误的情况。在另一种可选的实现方式中,将在服务平台识别出对应的文本信息后,将用户语音信息对应的文本信息通过用户终端的应用程序界面进行显示,以便于用户确认或者修改。其中,在接收到用户的确认消息后,将预设信息与起始地、目的地对应的行程信息进行绑定。在接收到用户修改信息后,根据用户修改信息确定修改后的文本信息,将所述修改后的文本信息中的预设信息与起始地、目的地对应的行程信息进行绑定。由此,可以避免语音识别过程中出现错误的情况。
在另一种可选的实现方式中,响应于获取用户预设信息设置请求,其中,用户预设信息设置请求包括起始地、目的地和对应的预设信息,将预设信息与所述起始地和目的地对应的行程信息进行绑定。可选的,用户通过在用户终端中的服务平台应用程序或者其他应用程序中嵌入的服务平台小程序中对应的文本输入框中输入预设信息、起始地和目的地,以使得服务平台根据用户输入的预设信息、起始地和目的地创建该预设信息与该起始地和目的地对应的行程信息的绑定关系。
应理解,本实施例并不对预设信息的设置方式进行限制,除上述所列举的预设信息的设置方式外,其他能够实现预设信息与对应行程信息的绑定的方式均可应用于本实施例中。
以网约车应用领域为例,预设信息可以为热词,也即用户的常用路线对应的行为,例如“上班”、“回家”等。用户设置的热词与行程信息的关联关系如下:上班:B小区东门—A大厦;回家:A大厦—B小区东门。可选的,可以将热词关联到拨号键的对应按键上,以使得用户在通话过程中通过按键进行一键打车,例如,将热词“上班”关联至拨号键上的按键1,将热词“回家”关联至拨号键上的按键2。由此,在通话状态时,用户可以通过触发按键1创建“回家”的网约车任务,这简化了任务创建的操作复杂度,提高了用户体验感。
在本实施例中,通过获取用户输入信息,对用户输入信息进行识别,获取信息识别结果,响应于信息识别结果为用户输入信息具有预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。
图4是本发明实施例的一种信息交互方法的示意图。本实施例以网约车任务创建的过程为例进行说明。如图4所示,以电话通话为例,用户通过用户终端41拨打网约车服务固定电话,在成功建立通信后,用户通过用户终端41向网约车平台42发送音频信息“我要回家”,网约车平台42通过语音解码器中的静态语音模型s和动态语音模型d对音频信息进行语音识别,获取动态识别信息和静态识别信息,比较动态识别信息和静态识别信息的得分大小,将得分较大的识别信息确定为音频信息对应的文本信息,将文本信息输入至语义识别模型422中进行语义识别,并语义识别结果与用户预先设置的热词(也即上述预设信息)进行匹配,获取信息识别结果,将信息识别结果发送至任务创建模块423进行处理以创建网约车任务。其中,响应于信息识别结果为用户输入的音频信息中包含热词“回家”,任务创建模块423根据热词“回家”对应的行程信息创建网约车任务,以供网约车司机通过司机终端接受该任务,并将任务创建结果发送至用户终端41进行播报,以便用户了解当前任务创建状态。例如,向用户终端发送“您的从A大厦到B小区东门的网约车订单以创建,正在等待司机接单”的语音播报信息。
在本实施例中,通过获取用户输入的音频信息,通过包括动态识别模型和静态识别模型的语音解码器对该音频信息进行识别,获取对应的文本信息,并对该文本信息进行语义识别,将语义识别结果与用户预先设置的预设信息进行匹配,获取信息识别结果,响应于信息识别结果为该音频信息具有预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。
图5是本发明实施例的另一种信息交互方法的示意图。本实施例以网约车任务创建的过程为例进行说明。如图5所示,以用户输入信息为文本信息为例,用户通过用户终端51中的网约车APP或者其他APP中嵌入的网约车小程序输入用于一键叫车的文本信息,例如输入的文本信息为“我要回家”。网约车平台42获取文本信息后,通过语义识别模型521对文本信息进行语义识别,并语义识别结果与用户预先设置的热词(也即上述预设信息)进行匹配,获取信息识别结果,将信息识别结果发送至任务创建模块522进行处理以创建网约车任务。其中,响应于信息识别结果为用户输入的文本信息中包含热词“回家”,任务创建模块522根据热词“回家”对应的行程信息创建网约车任务,以供网约车司机通过司机终端接受该任务,并将任务创建结果发送至用户终端52进行播报或显示,以便用户了解当前任务创建状态。例如,向用户终端发送“您的从A大厦到B小区东门的网约车订单以创建,正在等待司机接单”。
在本实施例中,通过获取用户输入的文本信息,对该文本信息进行语义识别,将语义识别结果与用户预先设置的预设信息进行匹配,获取信息识别结果,响应于信息识别结果为该音频信息具有预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。
图6是本发明实施例的又一种信息交互方法的示意图。本实施例以网约车任务创建的过程为例进行说明。如图6所示,以用户输入信息为按键信息为例,用户通过用户终端61拨打网约车服务固定电话,在成功建立通信后,用户在用户终端61的拨号键输入按键“2”,以向网约车平台62发送按键信息,网约车平台62通过热词匹配模块621查询与按键“2”关联的热词,例如热词“回家”。任务创建模块622响应于按键“2”对应的热词为“回家”,根据热词“回家”对应的行程信息创建网约车任务,以供网约车司机通过司机终端接受该任务,并将任务创建结果发送至用户终端61进行播报,以便用户了解当前任务创建状态。例如,向用户终端发送“您的从A大厦到B小区东门的网约车订单以创建,正在等待司机接单”的语音播报信息。
在本实施例中,通过获取用户输入的按键信息,通过将按键对应的值查询该按键关联的预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。
图7是本发明实施例的信息交互装置的示意图。如图7所示,本发明实施例的信息交互装置7包括信息获取单元71、识别单元72、任务创建单元73和发送单元74。
信息获取单元71被配置为获取用户输入信息。识别单元72被配置为对所述用户输入信息进行识别,获取信息识别结果。任务创建单元73被配置为响应于所述信息识别结果为所述用户输入信息具有预设信息,根据所述预设信息对应的行程信息创建任务。发送单元74被配置为向用户终端发送任务创建结果。
在一种可选的实现方式中,所述用户输入信息为音频信息;识别单元72包括语音识别子单元和第一语义识别子单元。语音识别子单元被配置为将所述用户输入信息输入至语音解码器中进行识别,获取对应的文本信息。第一语义识别子单元,被配置为对所述对应的文本信息进行语义识别,获取所述信息识别结果。可选的,所述语音解码器包括动态语音模型,所述动态语音模型基于用户对应的至少一个预设信息获得。
在一种可选的实现方式中,所述语音解码器包括动态语音模型和静态语音模型,所述动态语音模型基于用户对应的至少一个预设信息获得,所述静态语言模型根据预料数据库训练获得。所述语音识别子单元包括语音识别模块、第一信息确认模块和第二信息确认模块。
语音识别模块被配置为将所述用户输入信息分别输入至所述动态语音模型和静态语音模型中进行识别,获得动态识别信息和对应的得分、以及静态识别信息和对应的得分。第一信息确认模块被配置为响应于所述动态识别信息的得分大于或等于所述静态识别信息的得分,将所述动态识别信息确定为所述对应的文本信息。第二信息确认模块被配置为响应于所述动态识别信息的得分小于所述静态识别信息的得分,将所述静态识别信息确定为所述对应的文本信息。
在一种可选的实现方式中,所述动态语音模型基于对应的动态图训练获得,所述动态图为根据所述用户对应的至少一个预设信息生成的基于字及各个字之间跳转关系的图。
在一种可选的实现方式中,所述用户输入信息为文本信息。识别单元72包括第二语义识别子单元。第二语义识别子单元被配置为对所述用户输入信息进行语义识别,获取所述信息识别结果。
在一种可选的实现方式中,所述用户输入信息为按键信息。识别单元72包括按键匹配子单元。按键匹配子单元被配置为将所述按键信息与关联有预设信息的至少一个按键进行匹配,获取信息识别结果。
在一种可选的实现方式中,所述装置还包括第一设置单元,所述第一设置单元包括信息获取子单元、信息识别子单元和第一绑定子单元。信息获取子单元被配置为获取用户语音信息。信息识别子单元被配置为对所述用户语音信息进行识别,获得所述用户语音信息对应的文本信息,所述用户语音信息对应的文本信息包括起始地、目的地以及预设信息。第一绑定子单元被配置为将所述预设信息与所述起始地和目的地对应的行程信息进行绑定。
在一种可选的实现方式中,所述第一设置单元还包括显示子单元、修改信息接收单元、文本确定单元和第二绑定子单元。显示子单元被配置为将所述用户语音信息对应的文本信息通过用户终端进行显示。修改信息接收单元被配置为接收用户修改信息。文本确定单元被配置为根据所述用户修改信息确定修改后的文本信息。第二绑定子单元被配置为将所述修改后的文本信息中的预设信息与起始地、目的地对应的行程信息进行绑定。
在一种可选的实现方式中,所述装置还包括第二设置单元,所述第二设置单元包括请求获取子单元和第三绑定子单元。请求获取子单元被配置为获取用户预设信息设置请求,所述用户预设信息设置请求包括起始地、目的地和对应的预设信息。第三绑定子单元被配置为将所述预设信息与所述起始地和目的地对应的行程信息进行绑定。
在本实施例中,通过获取用户输入信息,对用户输入信息进行识别,获取信息识别结果,响应于信息识别结果为用户输入信息具有预设信息,根据预设信息对应的行程信息创建任务,向用户终端发送任务创建结果。由此,可以实现一键式创建任务,简化了任务创建的操作复杂度,提高了用户体验感。
图8是本发明实施例的电子设备的示意图。如图8所示,电子设备8为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述部分或全部的方法实施例。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (21)

1.一种信息交互方法,其特征在于,所述方法包括:
获取用户输入信息,所述用户输入信息包括音频信息;
对所述用户输入信息进行识别,获取信息识别结果,其中,所述音频信息根据采用动态语音模型和静态语音模型的语音解码器进行识别,所述动态语音模型基于对应的动态图训练获得,所述动态图为根据所述用户对应的至少一个预设信息生成的基于字及各个字之间跳转关系的图,所述静态语音模型基于语料数据库中的语料数据训练获得,所述信息识别结果基于所述动态语音模型的识别结果和所述静态语音模型的识别结果确定;
响应于所述信息识别结果为所述用户输入信息具有预设信息,根据所述预设信息对应的行程信息创建任务,所述行程信息包括行程路线和车辆类型;
向用户终端发送任务创建结果。
2.根据权利要求1所述的方法,其特征在于对所述用户输入信息进行识别,获取信息识别结果包括:
将所述用户输入信息输入至语音解码器中进行识别,获取对应的文本信息;
对所述对应的文本信息进行语义识别,获取所述信息识别结果。
3.根据权利要求2所述的方法,其特征在于,所述动态语音模型基于用户对应的至少一个预设信息获得。
4.根据权利要求2所述的方法,其特征在于,将所述用户输入信息输入至语音解码器中进行识别,获取对应的文本信息包括:
将所述用户输入信息分别输入至所述动态语音模型和静态语音模型中进行识别,获得动态识别信息和对应的得分、以及静态识别信息和对应的得分;
响应于所述动态识别信息的得分大于或等于所述静态识别信息的得分,将所述动态识别信息确定为所述对应的文本信息;
响应于所述动态识别信息的得分小于所述静态识别信息的得分,将所述静态识别信息确定为所述对应的文本信息。
5.根据权利要求1所述的方法,其特征在于,所述用户输入信息为文本信息;
对所述用户输入信息进行识别,获取信息识别结果包括:
对所述用户输入信息进行语义识别,获取所述信息识别结果。
6.根据权利要求1所述的方法,其特征在于,所述用户输入信息为按键信息;
对所述用户输入信息进行识别,获取信息识别结果包括:
将所述按键信息与关联有预设信息的至少一个按键进行匹配,获取信息识别结果。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述预设信息通过以下步骤设置:
获取用户语音信息;
对所述用户语音信息进行识别,获得所述用户语音信息对应的文本信息,所述用户语音信息对应的文本信息包括起始地、目的地以及预设信息;
将所述预设信息与所述起始地和目的地对应的行程信息进行绑定。
8.根据权利要求7所述的方法,其特征在于,所述步骤还包括:
将所述用户语音信息对应的文本信息通过用户终端进行显示;
接收用户修改信息;
根据所述用户修改信息确定修改后的文本信息;
将所述修改后的文本信息中的预设信息与起始地、目的地对应的行程信息进行绑定。
9.根据权利要求1-6中任一项所述的方法,其特征在于,所述预设信息通过以下步骤设置:
获取用户预设信息设置请求,所述用户预设信息设置请求包括起始地、目的地和对应的预设信息;
将所述预设信息与所述起始地和目的地对应的行程信息进行绑定。
10.一种信息交互装置,其特征在于,所述装置包括:
信息获取单元,被配置为获取用户输入信息,所述用户输入信息包括音频信息;
识别单元,被配置为对所述用户输入信息进行识别,获取信息识别结果,其中,所述音频信息根据采用动态语音模型和静态语音模型的语音解码器进行识别,所述动态语音模型基于对应的动态图训练获得,所述动态图为根据所述用户对应的至少一个预设信息生成的基于字及各个字之间跳转关系的图,所述静态语音模型基于语料数据库中的语料数据训练获得,所述信息识别结果基于所述动态语音模型的识别结果和所述静态语音模型的识别结果确定;
任务创建单元,被配置为响应于所述信息识别结果为所述用户输入信息具有预设信息,根据所述预设信息对应的行程信息创建任务,所述行程信息包括行程路线和车辆类型;
发送单元,被配置为向用户终端发送任务创建结果。
11.根据权利要求10所述的装置,其特征在于,所述识别单元包括:
语音识别子单元,被配置为将所述用户输入信息输入至语音解码器中进行识别,获取对应的文本信息;
第一语义识别子单元,被配置为对所述对应的文本信息进行语义识别,获取所述信息识别结果。
12.根据权利要求11所述的装置,其特征在于,所述动态语音模型基于用户对应的至少一个预设信息获得。
13.根据权利要求11所述的装置,其特征在于,所述语音识别子单元包括:
语音识别模块,被配置为将所述用户输入信息分别输入至所述动态语音模型和静态语音模型中进行识别,获得动态识别信息和对应的得分、以及静态识别信息和对应的得分;
第一信息确认模块,被配置为响应于所述动态识别信息的得分大于或等于所述静态识别信息的得分,将所述动态识别信息确定为所述对应的文本信息;
第二信息确认模块,被配置为响应于所述动态识别信息的得分小于所述静态识别信息的得分,将所述静态识别信息确定为所述对应的文本信息。
14.根据权利要求10所述的装置,其特征在于,所述用户输入信息为文本信息;所述识别单元包括:
第二语义识别子单元,被配置为对所述用户输入信息进行语义识别,获取所述信息识别结果。
15.根据权利要求10所述的装置,其特征在于,所述用户输入信息为按键信息;所述识别单元包括:
按键匹配子单元,被配置为将所述按键信息与关联有预设信息的至少一个按键进行匹配,获取信息识别结果。
16.根据权利要求10-15中任一项所述的装置,其特征在于,所述装置还包括第一设置单元,所述第一设置单元包括:
信息获取子单元,被配置为获取用户语音信息;
信息识别子单元,被配置为对所述用户语音信息进行识别,获得所述用户语音信息对应的文本信息,所述用户语音信息对应的文本信息包括起始地、目的地以及预设信息;
第一绑定子单元,被配置为将所述预设信息与所述起始地和目的地对应的行程信息进行绑定。
17.根据权利要求16所述的装置,其特征在于,所述第一设置单元还包括:
显示子单元,被配置为将所述用户语音信息对应的文本信息通过用户终端进行显示;
修改信息接收单元,被配置为接收用户修改信息;
文本确定单元,被配置为根据所述用户修改信息确定修改后的文本信息;
第二绑定子单元,被配置为将所述修改后的文本信息中的预设信息与起始地、目的地对应的行程信息进行绑定。
18.根据权利要求10-15中任一项所述的装置,其特征在于,所述装置还包括第二设置单元,所述第二设置单元包括:
请求获取子单元,被配置为获取用户预设信息设置请求,所述用户预设信息设置请求包括起始地、目的地和对应的预设信息;
第三绑定子单元,被配置为将所述预设信息与所述起始地和目的地对应的行程信息进行绑定。
19.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-9中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的方法。
21.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-9中任一项所述的方法。
CN202110247295.2A 2021-03-05 2021-03-05 一种信息交互方法、装置及电子设备 Active CN113011198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110247295.2A CN113011198B (zh) 2021-03-05 2021-03-05 一种信息交互方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110247295.2A CN113011198B (zh) 2021-03-05 2021-03-05 一种信息交互方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113011198A CN113011198A (zh) 2021-06-22
CN113011198B true CN113011198B (zh) 2022-07-22

Family

ID=76407411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110247295.2A Active CN113011198B (zh) 2021-03-05 2021-03-05 一种信息交互方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113011198B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063901A (zh) * 2010-12-02 2011-05-18 深圳市凯立德欣软件技术有限公司 位置服务设备的语音识别方法及位置服务设备
JP2015087556A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100760301B1 (ko) * 2006-02-23 2007-09-19 삼성전자주식회사 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US9063703B2 (en) * 2011-12-16 2015-06-23 Microsoft Technology Licensing, Llc Techniques for dynamic voice menus
US9502031B2 (en) * 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
CN105679314B (zh) * 2015-12-28 2020-05-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109949800B (zh) * 2017-12-20 2021-08-10 北京京东尚科信息技术有限公司 语音打车方法及系统
KR102346026B1 (ko) * 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11430433B2 (en) * 2019-05-05 2022-08-30 Microsoft Technology Licensing, Llc Meeting-adapted language model for speech recognition
CN112163685A (zh) * 2020-09-11 2021-01-01 广州宸祺出行科技有限公司 一种基于语音ai的智能撮合行程的方法及系统
CN112349289B (zh) * 2020-09-28 2023-12-29 北京捷通华声科技股份有限公司 一种语音识别方法、装置、设备以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063901A (zh) * 2010-12-02 2011-05-18 深圳市凯立德欣软件技术有限公司 位置服务设备的语音识别方法及位置服务设备
JP2015087556A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GEOGRAPHIC LANGUAGE MODELS FOR AUTOMATIC SPEECH RECOGNITION;Xiao, XQ等;《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》;20181025;全文 *
出行者信息服务系统中后台语音识别系统的研究;秦楠等;《交通标准化》;20110215;全文 *
基于WFST的中文语音识别解码器的研究;范书平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140331;全文 *
基于有限状态图的语音识别系统的构建;肖吉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130131;全文 *

Also Published As

Publication number Publication date
CN113011198A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN112365894B (zh) 基于ai的复合语音交互方法、装置及计算机设备
US20060095268A1 (en) Dialogue system, dialogue method, and recording medium
CN102439661A (zh) 用于车辆内自动交互的面向服务语音识别
CN109840318B (zh) 一种表单项的填写方法及系统
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
CN110196927B (zh) 一种多轮人机对话方法、装置及设备
CN109670020B (zh) 一种语音交互方法、系统及装置
CN111583931A (zh) 业务数据处理方法及装置
CN109117235A (zh) 一种业务数据处理方法、装置以及相关设备
CN105227557A (zh) 一种帐号处理方法及装置
CN109545203A (zh) 语音识别方法、装置、设备和存储介质
CN110767219B (zh) 语义更新方法、装置、服务器和存储介质
CN111611365A (zh) 一种对话系统的流程控制方法、装置、设备及存储介质
US9659008B2 (en) Information-sharing system
CN111225115B (zh) 信息提供方法及装置
CN112151034B (zh) 设备的语音控制方法、装置、电子设备及存储介质
CN113011198B (zh) 一种信息交互方法、装置及电子设备
CN110556111A (zh) 语音数据处理方法及装置、系统、电子设备、存储介质
CN114596854A (zh) 基于全双工通信协议的语音处理方法及系统、计算机设备
CN114372476A (zh) 语义截断检测方法、装置、设备和计算机可读存储介质
CN112840627B (zh) 一种信息处理的方法及相关装置、计算机可读存储介质
CN114202363A (zh) 基于人工智能的话术调用方法、装置、计算机设备及介质
CN110543556A (zh) 对话配置方法及存储介质和电子设备
CN113129896B (zh) 一种语音交互方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant