CN113421557A - 语音交互方法、语音交互系统和存储介质 - Google Patents

语音交互方法、语音交互系统和存储介质 Download PDF

Info

Publication number
CN113421557A
CN113421557A CN202110690436.8A CN202110690436A CN113421557A CN 113421557 A CN113421557 A CN 113421557A CN 202110690436 A CN202110690436 A CN 202110690436A CN 113421557 A CN113421557 A CN 113421557A
Authority
CN
China
Prior art keywords
cloud
cache
voice interaction
text data
audio file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110690436.8A
Other languages
English (en)
Inventor
郭华鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202110690436.8A priority Critical patent/CN113421557A/zh
Publication of CN113421557A publication Critical patent/CN113421557A/zh
Priority to EP21204069.5A priority patent/EP3958582A3/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/26Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using acoustic output
    • B60K35/265Voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23106Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion involving caching operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23113Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion involving housekeeping operations for stored content, e.g. prioritizing content for deletion because of storage space restrictions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41422Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance located in transportation means, e.g. personal vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4335Housekeeping operations, e.g. prioritizing content for deletion because of storage space restrictions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种语音交互方法、语音交互系统和存储介质。语音交互方法,包括:接收用户语音请求并对所述语音请求进行自然语言理解处理,获取相应的文本数据;根据所述文本数据获取回复文本数据,并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件;将查找到的音频文件由所述车机终端播报。上述语音交互方法,通过优先查找车机终端后查找云端的多级缓存策略,可以更快地获到音频文件,降低音频播报延时,在低成本与高质量音频播报速度之间取得均衡,给用户带来更加流畅的播报体验。

Description

语音交互方法、语音交互系统和存储介质
技术领域
本发明涉及语音技术领域,特别涉及一种语音交互方法、语音交互系统和存储介质。
背景技术
由于用户用车习惯不同,每个车机常用的回复指令也是大不一样,单一的缓存有失效、丢失风险,造成请求第三方服务流量大,音频播报延时较高,影响人机交互体感,而且,频繁使用第三方服务,会使得成本增加。
发明内容
本发明的实施方式提供一种语音交互方法、语音交互系统和存储介质。
本发明实施方式的一种语音交互方法,包括:
接收用户语音请求并对所述语音请求进行自然语言理解处理,获取相应的文本数据;
根据所述文本数据获取回复文本数据,并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件;
将查找到的音频文件由所述车机终端播报。
在某些实施方式中,根据所述文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件,包括:
根据所述回复文本数据先查找所述车机终端的预置缓存;
在所述车机终端的预置缓存查找不到所述音频文件时,再查找所述车机终端的一级缓存。
在某些实施方式中,所述语音交互方法包括:
在所述车机终端的一级缓存存储一定周期的数据时,执行缓存淘汰策略。
在某些实施方式中,所述语音交互方法包括:
在所述车机终端的一级缓存不存在所述音频文件时,将查找到的所述音频文件存储至所述车机终端的一级缓存。
在某些实施方式中,根据所述文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件,包括:
在所述车机终端查找不到所述音频文件时,先查找所述云端的二级缓存;
在所述云端的二级缓存查找不到所述音频文件时,再查找所述云端的三级缓存。
在某些实施方式中,根据所述文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件,包括:
在所述云端的三级缓存查找不到所述音频文件时,再查找所述云端的动态缓存。
在某些实施方式中,所述云端包括第一云端和第二云端,所述第一云端包括所述二级缓存和所述三级缓存,所述第二云端包括所述动态缓存。
在某些实施方式中,所述语音交互方法包括:
在所述云端的二级缓存存储一定周期的数据时,执行缓存淘汰策略。
在某些实施方式中,所述语音交互方法包括:
在所述云端的二级缓存和/或三级缓存不存在所述音频文件时,将查找到的所述音频文件存储至所述云端的二级缓存和/或三级缓存。
本发明实施方式的一种语音交互系统,包括:
理解模块,用于接收用户语音请求并对所述语音请求进行自然语言理解处理,获取相应的文本数据;
查找模块,用于根据所述文本数据获取回复文本数据,并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件;
播报模块,用于将查找到的音频文件由所述车机终端播报。
本发明实施方式的一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述任一实施方式的语音交互方法。
上述语音交互方法、语音交互系统和计算机可读存储介质,通过优先查找车机终端后查找云端的多级缓存策略,可以更快地获到音频文件,降低音频播报延时,在低成本与高质量音频播报速度之间取得均衡,给用户带来更加流畅的播报体验。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的语音交互方法的流程示意图;
图2是本发明实施方式的语音交互系统的一个模块示意图;
图3是本发明实施方式的语音交互系统的另一模块示意图。
图4是本发明实施方式的语音交互系统的又一模块示意图。
图5是本发明实施方式的语音交互系统的再一模块示意图。
图6是本发明实施方式的语音交互方法的场景示意图。
图7是本发明实施方式的语音交互系统的再一模块示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的实施方式的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1和图2,本发明实施方式提供的一种语音交互方法,包括:
步骤S12,接收用户语音请求并对语音请求进行自然语言理解处理,获取相应的文本数据;
步骤S14,根据文本数据获取回复文本数据,并根据回复文本数据依次查找车机终端100和云端200的缓存中相应回复的音频文件;
步骤S16,将查找到的音频文件由车机终端100播报。
上述语音交互方法,通过优先查找车机终端100后查找云端200的多级缓存策略,可以更快地获到音频文件,降低音频播报延时,在低成本与高质量音频播报速度之间取得均衡,给用户带来更加流畅的播报体验。
具体地,在步骤S12中,语音请求可来自车机终端100,也可以来自于与车机终端通信的移动终端,车机终端100可以是安装在车辆上。车辆包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等,移动终端包括但不限于手机、平板电脑、可穿戴智能设备、笔记本电脑等。云端200可以与车辆进行有线或无线连接,以实现数据和信号传输。无线连接的方式包括但不限于WIFI、移动通信网络等。移动通信网络可包括4G、5G、6G等移动通信方式。
在一个实施方式中,车机终端100可包括显示屏102和语音交互终端104。
显示屏102用于显示图形用户界面,例如控制面板界面,导航界面,音乐界面等。显示屏102可以是触摸显示屏102,除显示与车机终端100相关的图形用户界面外,还提供用户输入的方式。用户通过触摸触摸显示屏102上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中,显示屏102可以包括车辆的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆上的按键或语音输入相关指令,进入到想要的图形用户界面。
语音交互终端104用于采集用户语音请求及播报音频文件,例如,语音交互终端104可包括麦克风和扬声器,语音交互终端104通过麦克风采集到用户语音请求,并上传至云端200,云端200对该语音请求进行自然语言理解处理,获取相应的操作指令及文本数据,云端200将操作指令及文本数据发送至语音交互终端104,由语音交互终端104控制车辆执行相应操作。
在步骤S14中,车机终端100获取到文本数据后,可以基于TTS(Text To Speech,“从文本到语音)方式获得回复文本数据,根据回复文本数据在本地缓存查找相应回复的音频文件,即播报源。在查找到相应回复的音频文件后,车机终端100直接播报该音频文件,使得音频播报延时降低,提升了用户体验,而且无需引入第三方服务进行在线合成,降低了成本。
可以利用相关技术来将语音请求转换为文本数据,在此不详细展开。例如语音请求为“打开车窗”,转换为文本数据为“打开车窗”。
请结合图3,在某些实施方式中,步骤S14,包括:
根据回复文本数据先查找车机终端100的预置缓存106;
在车机终端100的预置缓存106查找不到音频文件时,再查找车机终端100的一级缓存108。
如此,可以实现在车机终端100进行两级缓存策略。
具体地,车机终端100获取到回复文本数据后,根据文本内容优先匹配车机终端100的预置缓存106,找到对应音频文件,无需再进行查找,本次处理结束。
在车机终端100的预置缓存106查找不到音频文件时,车机终端100再查找车机终端100的一级缓存108。在查找到相应回复的音频文件后,无需再进行查找,本次处理结束。
车机终端100播报查找到的音频文件,实现与用户的交互。
在本实施方式中,车机终端100的预置缓存106是存储车机交互回复较多的音频文件,就是存储一些高频使用的音频文件,最大程度地提升车机响应速度,提升音频播报速度,例如常用的回复性话术:“好的”、“我没有听懂”、“换个说法好吗?”、“已为你选择第1条路线”等。则存储回复性话术相应的音频文件至预置缓存106。通常地,预置缓存106所存储的音频文件数量及音频内容不会变化。当然,也可以在OTA(在线升级)过程中,更新车机终端100的预置缓存106所存储的音频文件的数量及音频内容。
车机终端100的一级缓存108:根据淘汰策略、车机终端100容量,存储每个车主用车习惯需要进行的TTS回复音频文件。用车时间越长一级缓存108会越健壮,即一级缓存108存储的音频文件会越来越多。其中,车机终端100的预置缓存106和一级缓存108都受限于车机终端100的容量,所以有对应的缓存淘汰策略,以及需要云端200来提供更多数据的支持。车机终端100的预置缓存106的缓存淘汰策略可以是通过OTA来实现,通过云端200的大数据分析得到需要更新的预置缓存106的音频文件。
具体地,在某些实施方式中,语音交互方法包括:
在车机终端100的一级缓存108存储一定周期的数据时,执行缓存淘汰策略。如此,可以使得车机终端100的一级缓存108能够动态存储音频文件。
具体地,车机终端100的容量一般是固定的,一级缓存108也可是动态缓存206,会对云端200传回的音频文件进行动态存储,如果分配给一级缓存108的容量已用完,则车机终端100无法更新一级缓存108所存储的音频文件。因此,在车机终端100的一级缓存108存储一定周期的数据时,执行缓存淘汰策略,使得车机终端100的一级缓存108能够存储云端200传送的音频文件。
在一个例子中,一定周期可以是7天,当车机终端100的一级缓存108存储了7天的数据时,即进入第8天时,执行缓存淘汰策略,删除前7天的音频文件。可以理解的,一定周期还可以是其它周期,例如,3天、一个星期、10天等,在此不作具体限定。
在某些实施方式中,语音交互方法包括:
在车机终端100的一级缓存108不存在音频文件时,将查找到的音频文件存储至车机终端100的一级缓存108。如此,可以将车机终端100的一级缓存108没有的音频文件回填至车机终端100的一级缓存108,在后续需要用到该音频文件时,可直接在本地读取,降低音频播报延时,为用户带来更流畅的播报体现。
具体地,在车机终端100的一级缓存108没有相应回复的音频文件时,根据回复文本数据在云端200进行查找,查找到相应回复的音频文件后,云端200会传输该音频文件至车机终端100,车机终端100播报该音频文件。车机终端100可以将查找到的音频文件回填至车机终端100的一级缓存108。
回填时,可以采用异步回填的方式,即,车机终端100可以有两个进程,其中一个进程可以称为主进程,即车机终端100从云端200获取到相应回复的音频文件后,播报音频文件,另一个进程,可以是车机终端100将从云端200获取到的音频文件存储至车机终端100的一级缓存108。这两个进程之间不会相互影响,两个进程之间也没有时序上的具体限制。
请结合图4,在某些实施方式中,步骤S14,包括:
在车机终端100查找不到音频文件时,先查找云端200的二级缓存202;
在云端200的二级缓存202查找不到音频文件时,再查找云端200的三级缓存204。
如此,可以实现在云端200进行两级缓存策略。
具体地,车机终端可包括控制模块205,控制模块205连接二级缓存202和三级缓存204,在车机终端100查找不到相应回复的音频文件后,基于TTS方式,控制模块205用于根据回复文本数据查找相应回复的音频文件。控制模块205用于优先从二级缓存202查找,查找到后相应回复的音频文件后,将音频文件传输至车机终端100,由车机终端100播报该音频文件。在传输过程中,控制模块205可采用音频文件对应的字节流进行传输。车机终端100获取到云端200发送的字节流数据后,转换为音频文件,并进行本地车机终端100的一级缓存108动态存储。
在云端200的二级缓存202查找不到相应回复的音频文件时,控制模块205再查找三级缓存204。在查找到相应回复的音频文件后,将音频文件传输至车机终端100,由车机终端100播报该音频文件。在传输过程中,云端200采用音频文件对应的字节流进行传输,车机终端100获取到云端200发送的字节流数据后,转换为音频文件,并进行本地车机终端100的一级缓存108动态存储。
控制模块250还可用于维护二级缓存202和三级缓存204的更新策略。
需要说明的是,在车机终端100接收到云端200传输的音频文件的首帧数据后,车机终端100即可以利用该首帧数据进行播报,无需等待整个音频文件的字节流传输完成再播报,这样可进一步降低了音频播报延时,提升用户体验。首帧数据的长度可以由系统默认设置,也可以由用户自行设定,在此不作具体限定。首帧数据播报过程中,车机终端100继续接收云端200发送的音频文件的字节流,首帧播放完成,接着播报下一帧数据以完成整个音频文件的播报。
车机终端100播报查找到的音频文件,实现与用户的交互。
在一个实施方式中,云端200的二级缓存202可以是高性能缓存(如高性能缓存容器),在车机终端100查找不到相应回复的音频文件(即无命中)的情况下,采用高性能缓存容器,在服务请求到云端200时,以最快的速度响应给车机终端100,同时,二级缓存202会按照缓存淘汰策略,保证高性能、控制一定的成本。
在某些实施方式中,语音交互方法包括:
在云端200的二级缓存202存储一定周期的数据时,执行缓存淘汰策略。如此,可以使得云端200的二级缓存202能够动态存储音频文件。
具体地,云端200分配给二级缓存202的容量一般是固定的,二级缓存202会对云端200查找到的音频文件进行存储,如果分配给二级缓存202的容量已用完,则云端200无法更新二级缓存202所存储的音频文件。因此,在云端200的二级缓存202存储一定周期的数据时,执行缓存淘汰策略,使得云端200的二级缓存202能够存储最新的音频文件。
在一个例子中,一定周期可以是7天,当云端200的二级缓存202存储了7天的数据时,即进入第8天时,执行缓存淘汰策略,删除前7天的音频文件。可以理解的,一定周期还可以是其它周期,例如,3天、一个星期、10天等,在此不作具体限定。另外,二级缓存202执行缓存淘汰策略的周期与一级缓存108执行缓存淘汰策略的周期可以相同,也可以不同,在此不作具体限定。
在一个实施方式中,云端200的三级缓存204可以是高可靠性缓存,二级缓存202可能会存在失效或者系统异常情况,作为二级缓存202降级方案,采用可靠性更高的存储介质作为兜底,性能上相比二级缓存202会有一定的损耗,成本上相对廉价,作为可靠性的存储介质,可无需缓存淘汰策略。
在某些实施方式中,步骤S14,包括:
在云端200的三级缓存204查找不到音频文件时,再查找云端200的动态缓存206。如此,可以实现在云端200进行三级缓存204策略。
具体地,在前面多缓存都无法查找到相应回复的音频文件(即无法命中)的情况下,可以使用云端200的三级缓存204作为应急处理方案。
具体地,请结合图5,云端200包括第一云端208和第二云端210,第一云端208包括控制模块205、二级缓存202和三级缓存204,第二云端210包括动态缓存206。第一云端208可以是车辆厂家的云端服务器,第二云端210可以是第三方服务提供商的云端服务器。第三方服务提供商可以提供在线合成服务,使得车机终端100能够播报相应回复的音频文件。
在某些实施方式中,语音交互方法包括:
在云端200的二级缓存202和/或三级缓存204不存在音频文件时,将查找到的音频文件存储至云端200的二级缓存202和/或三级缓存204。如此,可以将云端200的二级缓存202和/或三级缓存204没有的音频文件回填至云端200的二级缓存202和/或三级缓存204,在后续需要用到该音频文件时,可直接在云端200读取并发送至车机终端100,降低音频播报延时,为用户带来更流畅的播报体现。
具体地,在一个实施方式中,云端200的二级缓存202没有该音频文件时,根据回复文本数据在云端200进行查找,查找到相应回复的音频文件后,云端200会传输该音频文件至车机终端100,车机终端100播报该音频文件,云端200也将查找到相应回复的音频文件回填至二级缓存202。
回填时,可以采用异步回填的方式,即,云端200可以有两个进程,其中一个进程可以称为主进程,即云端200查找到相应回复的音频文件后,传输音频文件至车机终端100,使车机终端100播报该音频文件,另一个进程,可以是云端200将相应回复的音频文件存储至云端200的二级缓存202。这两个进程之间不会相互影响,两个进程之间也没有时序上的具体限制。
三级缓存204的回填与上述二级缓存202回填的方法相类似,在此不作详细展开。
在云端200的二级缓存202和/或三级缓存204不存在音频文件时,将查找到的音频文件存储至云端200的二级缓存202和/或三级缓存204,可以是,在云端200的二级缓存202不存在音频文件时,将查找到的音频文件存储至云端200的二级缓存202,可以是,在云端200的三级缓存204不存在音频文件时,将查找到的音频文件存储至云端200的三级缓存204,还可以是,在云端200的二级缓存202和三级缓存204不存在音频文件时,将查找到的音频文件存储至云端200的二级缓存202和三级缓存204。
在本发明的实施方式中,图6所示的是,语音交互方法的多级缓存策略的一个场景图。在图6中,车机终端100收到用户语音请求,如“打开车窗”,上传至云端200,由云端200经过自然语言理解处理,得到用户意愿,云端200生成操作指令和文本数据发送至车机终端100;
车机终端100接收操作指令,控制车辆执行相应操作,以帮忙用户操作车机终端100指令或者软件应用操作,同时基于文本数据响应回复用户TTS播报话术获取回复文本数据;
车机终端100根据回复文本数据内容优先匹配车机终端100的预置缓存106,找到对应音频文件并播报该音频,本次处理结束,音频文件播报的内容为“好的,已为您打开”;
在车机终端100的预置缓存106无命中(即查找不到相应回复的音频文件)时,继续查找车机终端100的一级缓存108,查找到相应回复的音频文件后,由车机终端100播报该音频文件;
在车机终端100的一级缓存108无命中时,需要请求云端200从云端200获取,优先从第一云端208的二级高性能缓存中获取,二级高性能缓存中存储回复音频对应的字节流,根据TTS播报话术匹配到结果后返回给车机终端100进行播报,车机终端100拿到云端200字节流数据源后转化为音频文件进行本地一级动态缓存206存储,同时增加缓存淘汰策略;
在第一云端208的二级缓存202无命中时,继续匹配第一云端208的三级高可靠性缓存,查找到相应回复的音频文件后返回给车机终端100进行播报,同时异步回填第一云端208的二级缓存202,车机终端100拿到相应回复的音频文件后再回填至车机终端100的一级缓存108;
在第一云端208的三级缓存204无命中时,需要向第二云端210(第三方服务提供商)在线请求,获取在线音频文件对应的字节流结果,返回给车机终端100播报,同时异步回填第一云端208的三级缓存204、二级缓存202,车机终端100获取到相应回复的音频文件后回填一级缓存108;
以上处理完本次流程结束,本发明实施方式采用漏斗匹配,漏斗回填的方式进行处理,能够为用户提升播报体验。
请参图7,本发明实施方式提供的一种语音交互系统300,包括:
理解模块302,用于接收用户语音请求并对语音请求进行自然语言理解处理,获取相应回复的文本数据;
查找模块304,用于根据文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端100和云端200的缓存中相应回复的音频文件;
播报模块306,用于将查找到的音频文件由车机终端100播报。
上述语音交互系统300,通过优先查找车机终端100后查找云端200的多级缓存策略,可以更快地获到音频文件,降低音频播报延时,在低成本与高质量音频播报速度之间取得均衡,给用户带来更加流畅的播报体验。
具体地,在一个实施方式中,理解模块可以位于云端200,例如可以位于车辆厂家的云端200服务器,也可以位于第三方服务提供商的云端200服务器,还可以是理解模块的部分功能由车辆厂家的云端200服务器实现,部分功能由第三方服务提供商实现,在此不作具体限定。
在一个实施方式中,查找模块可以位于本地的车机终端100,也可以位于云端200,还可以是,查找模块的部分功能由车机终端100实现,部分功能由云端200实现,在此不作具体限定。
在一个实施方式中,播报模块可以位于车机终端100,也可以位于云端200,在此不作具体限定。
综上,本发明实施方式的语音交互系统300可包括车机终端100和云端200。
本发明实施方式提供的一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述任一实施方式的语音交互方法。
具体地,在一个实施方式,计算机程序被处理器执行时,实现的语音交互方法包括:
步骤S12,接收用户语音请求并对语音请求进行自然语言理解处理,获取相应回复的文本数据;
步骤S14,根据文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端100和云端200的缓存中相应回复的音频文件;
步骤S16,将查找到的音频文件由车机终端100播报。
可以理解的是,上述对语音交互方法的实施方式和有益效果的解释说明,也适用于本发明实施方式的语音交互系统300及计算机可读存储介质,为避免冗余,在此不作详细展开。
综上,本发明实施方式的语音交互方法、语音交互系统300及计算机可读存储介质,针对,车机场景对TTS响应速度有较高要求,尤其对导航以及危险驾驶的一些安全提醒,因此降低音频播报延时是一个用户场景感知中的重要一环。本发明实施方式采用漏斗匹配、漏斗式回填机制,将每一级缓存108强壮,同时通过各级缓存的失效策略控制每一级缓存108的容量,控制存储成本。不同于解决传统高并发问题的思路,单一的保证服务稳定,TTS在线多缓存策略,要解决的是用户听到TTS回复更快的响应时延,使用户得到更快的TTS播报,保证更好的高品质音质,更好的产品体验,保证人机交互智能化中更高的使命。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种语音交互方法,其特征在于,包括:
接收用户语音请求并对所述语音请求进行自然语言理解处理,获取相应的文本数据;
根据所述文本数据获取回复文本数据,并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件;
将查找到的音频文件由所述车机终端播报。
2.根据权利要求1所述的语音交互方法,其特征在于,根据所述文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件,包括:
根据所述回复文本数据先查找所述车机终端的预置缓存;
在所述车机终端的预置缓存查找不到所述音频文件时,再查找所述车机终端的一级缓存。
3.根据权利要求2所述的语音交互方法,其特征在于,所述语音交互方法包括:
在所述车机终端的一级缓存存储一定周期的数据时,执行缓存淘汰策略。
4.根据权利要求2所述的语音交互方法,其特征在于,所述语音交互方法包括:
在所述车机终端的一级缓存不存在所述音频文件时,将查找到的所述音频文件存储至所述车机终端的一级缓存。
5.根据权利要求1所述的语音交互方法,其特征在于,根据所述文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件,包括:
在所述车机终端查找不到所述音频文件时,先查找所述云端的二级缓存;
在所述云端的二级缓存查找不到所述音频文件时,再查找所述云端的三级缓存。
6.根据权利要求5所述的语音交互方法,其特征在于,根据所述文本数据获取回复文本数据,并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件,包括:
在所述云端的三级缓存查找不到所述音频文件时,再查找所述云端的动态缓存。
7.根据权利要求6所述的语音交互方法,其特征在于,所述云端包括第一云端和第二云端,所述第一云端包括所述二级缓存和所述三级缓存,所述第二云端包括所述动态缓存。
8.根据权利要求5所述的语音交互方法,其特征在于,所述语音交互方法包括:
在所述云端的二级缓存存储一定周期的数据时,执行缓存淘汰策略。
9.根据权利要求5所述的语音交互方法,其特征在于,所述语音交互方法包括:
在所述云端的二级缓存和/或三级缓存不存在所述音频文件时,将查找到的所述音频文件存储至所述云端的二级缓存和/或三级缓存。
10.一种语音交互系统,其特征在于,包括:
理解模块,用于接收用户语音请求并对所述语音请求进行自然语言理解处理,获取相应的文本数据;
查找模块,用于根据所述文本数据获取回复文本数据,并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件;
播报模块,用于将查找到的音频文件由所述车机终端播报。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的语音交互方法。
CN202110690436.8A 2021-06-22 2021-06-22 语音交互方法、语音交互系统和存储介质 Pending CN113421557A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110690436.8A CN113421557A (zh) 2021-06-22 2021-06-22 语音交互方法、语音交互系统和存储介质
EP21204069.5A EP3958582A3 (en) 2021-06-22 2021-10-21 Voice interaction method, voice interaction system and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110690436.8A CN113421557A (zh) 2021-06-22 2021-06-22 语音交互方法、语音交互系统和存储介质

Publications (1)

Publication Number Publication Date
CN113421557A true CN113421557A (zh) 2021-09-21

Family

ID=77789719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110690436.8A Pending CN113421557A (zh) 2021-06-22 2021-06-22 语音交互方法、语音交互系统和存储介质

Country Status (2)

Country Link
EP (1) EP3958582A3 (zh)
CN (1) CN113421557A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120964A (zh) * 2021-11-04 2022-03-01 广州小鹏汽车科技有限公司 语音交互方法及其装置、电子设备和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750174A (zh) * 2012-06-29 2012-10-24 Tcl集团股份有限公司 文件加载方法及装置
US20150024796A1 (en) * 2012-03-12 2015-01-22 Huawei Technologies Co., Ltd. Method for mobile terminal to process text, related device, and system
US20160086598A1 (en) * 2013-09-12 2016-03-24 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
CN108540510A (zh) * 2017-03-02 2018-09-14 北京金山云网络技术有限公司 一种云主机创建方法、装置及云服务系统
CN109712605A (zh) * 2018-12-29 2019-05-03 深圳市同行者科技有限公司 一种应用于车联网的语音播报的方法及装置
CN110069419A (zh) * 2018-09-04 2019-07-30 中国平安人寿保险股份有限公司 多级缓存系统及其访问控制方法、设备和存储介质
CN110213339A (zh) * 2019-05-10 2019-09-06 腾讯科技(深圳)有限公司 资源访问方法、装置、存储介质和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243570B (zh) * 2020-01-19 2023-01-31 出门问问创新科技有限公司 一种语音获取方法、装置以及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150024796A1 (en) * 2012-03-12 2015-01-22 Huawei Technologies Co., Ltd. Method for mobile terminal to process text, related device, and system
CN102750174A (zh) * 2012-06-29 2012-10-24 Tcl集团股份有限公司 文件加载方法及装置
US20160086598A1 (en) * 2013-09-12 2016-03-24 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
CN108540510A (zh) * 2017-03-02 2018-09-14 北京金山云网络技术有限公司 一种云主机创建方法、装置及云服务系统
CN110069419A (zh) * 2018-09-04 2019-07-30 中国平安人寿保险股份有限公司 多级缓存系统及其访问控制方法、设备和存储介质
CN109712605A (zh) * 2018-12-29 2019-05-03 深圳市同行者科技有限公司 一种应用于车联网的语音播报的方法及装置
CN110213339A (zh) * 2019-05-10 2019-09-06 腾讯科技(深圳)有限公司 资源访问方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毕精等: "《Java语言程序设计基础》", 31 March 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120964A (zh) * 2021-11-04 2022-03-01 广州小鹏汽车科技有限公司 语音交互方法及其装置、电子设备和可读存储介质
CN114120964B (zh) * 2021-11-04 2022-10-14 广州小鹏汽车科技有限公司 语音交互方法及其装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
EP3958582A3 (en) 2022-05-11
EP3958582A2 (en) 2022-02-23

Similar Documents

Publication Publication Date Title
JP2012008969A (ja) 携帯機器と連携した車載機器を用いてコンテンツを自動的に投稿するためのシステム
JP2015118709A (ja) 音声認識問い合わせ応答システム
US20170103756A1 (en) Information processing system, and vehicle-mounted device
CN110472095B (zh) 语音引导方法、装置、设备和介质
CN103685393A (zh) 车载语音操控终端和语音操控系统及数据处理系统
CN103187056A (zh) 基于车载应用的语音处理系统
CN113421557A (zh) 语音交互方法、语音交互系统和存储介质
CN112748977A (zh) 行车场景的展示方法、装置及系统
EP3958577A2 (en) Voice interaction method, voice interaction system, server and storage medium
CN105091894A (zh) 导航方法、智能终端设备及可穿戴设备
US20150168151A1 (en) Cloud system for a vehicle
CN105711523B (zh) 车载智能终端、系统及信息共享方法
US8437953B2 (en) Navigation apparatus and route distribution server
CN102883016A (zh) 车载消息传递
US20040068363A1 (en) Client-server vehicle data communication system and server and client terminal of the system
US11620994B2 (en) Method for operating and/or controlling a dialog system
CN108806682B (zh) 获取天气信息的方法和装置
CN113076079A (zh) 语音控制方法、服务器、语音控制系统和存储介质
EP3929915A2 (en) Voice interaction method, server, voice interaction system and storage medium
CN112325899A (zh) 一种路径展示方法和相关装置
US20150241224A1 (en) System and method for enabling point of interest information to a navigation system
JP2000105893A (ja) 車両用通信システム
CN111583918A (zh) 语音控制方法、车载终端及车辆
CN106681993B (zh) 一种车机中媒体内容的处理方法和系统
US20240046917A1 (en) Information processing device, information processing method, and program for generating synthesized audio content from text when audio content is not reproducible

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210921

RJ01 Rejection of invention patent application after publication