CN113436630A - 基于多模态语音交互模型的地铁智能语音购票系统 - Google Patents

基于多模态语音交互模型的地铁智能语音购票系统 Download PDF

Info

Publication number
CN113436630A
CN113436630A CN202010154838.1A CN202010154838A CN113436630A CN 113436630 A CN113436630 A CN 113436630A CN 202010154838 A CN202010154838 A CN 202010154838A CN 113436630 A CN113436630 A CN 113436630A
Authority
CN
China
Prior art keywords
voice
station
stations
module
subway
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010154838.1A
Other languages
English (en)
Inventor
常伟
余捷全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yuxiu Technology Co ltd
Original Assignee
Guangdong Yuxiu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Yuxiu Technology Co ltd filed Critical Guangdong Yuxiu Technology Co ltd
Priority to CN202010154838.1A priority Critical patent/CN113436630A/zh
Publication of CN113436630A publication Critical patent/CN113436630A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07BTICKET-ISSUING APPARATUS; FARE-REGISTERING APPARATUS; FRANKING APPARATUS
    • G07B5/00Details of, or auxiliary devices for, ticket-issuing machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Ticket-Dispensing Machines (AREA)

Abstract

本发明涉及交通管理技术领域,尤其是基于多模态语音交互模型的地铁智能语音购票系统;它包括回声抵消模块、声源寻踪模块、去噪模块和语音识别购票模块;可根据旅客发声位置转动,更加便民;可模糊查询,不需要明确说出精确站点名称;在购票的同时顺带将换乘信息告诉旅客,防止旅客错过中转站而延误行程。

Description

基于多模态语音交互模型的地铁智能语音购票系统
技术领域
本发明涉及交通管理技术领域,尤其是基于多模态语音交互模型的地铁智能语音购票系统。
背景技术
语音购票是一种时髦的轨交售票方式,例如中国专利公开了一种轨道交通智能语音购票的系统及购票方法,申请号201810705851.4,其中记载:通过语音识别模块获取并识别语音信息,调用存储的词库信息与语音信息进行比对,生成对应的移动终端识别ID,移动终端根据识别ID输出购票订单信息,然后移动终端根据语音识别模块输入指令匹配购票车次,创建购票订单,完成购票交易。本发明可以方便乘客快速选择购票信息,减少在复杂线网中选取目的站点的操作,可以快速、便捷、智能的进行购票选择,解放乘客的双手,缩短购票时间,方便乘客出行,减小客流量较大车站的排队压力。
该技术尚不完善,例如需要指定站点才能购票,对于一些不熟悉当地路况的游客来说,他们只知道一些地标或者地名,不一定熟悉对应的站点。例如游客熟悉天安门,但是并一定知道天安门对应的地铁站是哪一个,此时再通过手机查询等就会耽误买票时间,特别是游客聚集的地方容易手机网络拥堵,进一步耽误时间。
另外,公知的,地铁站内非常嘈杂,购票系统的提示音、旅客买票的声音以及人群的杂音汇聚在一起,导致购票系统难以区分旅客买票的声音,可能出现识别错误。
发明内容
针对现有技术的不足,本发明提供一种可模糊查询且可准确识别旅客声音的语音购票系统。
本发明的技术方案为:
基于多模态语音交互模型的地铁智能语音购票系统,它包括回声抵消模块、声源寻踪模块、去噪模块和语音识别购票模块;
其中回声抵消模块通过估计回声路径的特征参数,产生一个模拟的回音路径,得出模拟回声信号,从接收信号中减去该信号,实现回声抵消;
其中声源寻踪模块包括基座、电动转轴和面板,所述电动转轴安装在基座上,面板安装在电动转轴上,面板在电动转轴的带动下180°转动,面板上且位于同一水平线从左到右等距安装有三个收音器分别为a、b、c,其瞬时音量分别为Ya、Yb、Yc,当Ya大于Yb时电动转轴向左转,当Yb小于Yc时电动转轴向右转,面板上还设置有扬声器;
其中去噪模块按一定的采样频率,即每个一小段时间,测得模拟信号的模拟电压值,通过采样时测的的模拟电压值,进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值,根据采样频率和量化值通过小波去噪法得到去噪后的声音数据;其中采样频率是指将模拟声音波形数字化后每秒钟所抽取的声波幅度的样本次数,其单位为kHz(千赫兹);
语音识别购票模块对输入的原始语音数据进行断电检测、语音分帧和预加重处理,然后使用Mel倒谱系数取出语音数据中冗余信息,采用隐马尔可夫模型模拟人的语音过程,采用N-gram模型通过词汇出现先后顺序的概率计算概率最大的单次序列,根据已经训练好的声学模型、语音模型或者字典建立一个由语音因素组成的有向网络并寻找到最佳路径,也就确定了识别的文字信息,而后通过现有的购票平台模糊查询文字信息所对应的路线以及价格,通过语音和显示屏两种方式反馈给旅客。
其中,所述采样频率为5-11kHz,采样频率决定声音失真的大小,采样频率越高失真越小,为保证不失真,大部分音像制品的采样频率设置在40kHz或者以上,标准CD的采样频率是44kHz,网站音频播放标准是22kHz,但上述各种标准都是给人听的,用于机器识别时有5kHz就已经足够,采样频率低对于采样数据的存放空间需求较小,降低了系统的构建成本。
其中,所述小波去噪法应用小波分解与重构的方法(也就是Mallet算法),去噪具体步骤是:根据需要,将含有噪声信号在某一尺度下分解到不同的频带内,然后再将噪声所处的频带置零或直接提取有用信号所在的频带,进行小波重构,从而达到去噪的目的。
其中,所述模糊查询方法为:查询旅客输入的起始地和目的地最近的地铁站点作为起始站和终点站,计算价钱并将价钱信息输出,查询这两个站点之间所有地铁线路,查询出两站点之间所有线路的中转站,将这些中转站放入一个一维数组中,查询从起始站点到达中转站的所有地铁线路,将线路信息中的线路名称、起始和中转站名称以及两站点之间的站点个数存入一个二维数组,在查询从中转站到目的地站点的所有地铁线路,将线路信息中的线路名称、中转站和目的站点名称以及两站之间的站点个数存入另一个二维数组,判断两组路线之间是否存在相同站点,相同站点也就是中转站,将转乘信息输出。
在一个较佳实施例中,所述模糊查询方法中还包括最短线路查询算法,对站点之间的个数加入一段比较站点个数的代码,通过三个临时变量用于记录所有线路中最短路径,通过临时变量记录下来的信息在输出数组中对应位置输出。
本发明的有益效果为:可根据旅客发声位置转动,更加便民;可模糊查询,不需要明确说出精确站点名称;在购票的同时顺带将换乘信息告诉旅客,防止旅客错过中转站而延误行程。
具体实施方式
下面结合具体实施方式作进一步说明:
实施例1
基于多模态语音交互模型的地铁智能语音购票系统,它包括回声抵消模块、声源寻踪模块、去噪模块和语音识别购票模块;
其中回声抵消模块通过估计回声路径的特征参数,产生一个模拟的回音路径,得出模拟回声信号,从接收信号中减去该信号,实现回声抵消;
其中声源寻踪模块包括基座、电动转轴和面板,所述电动转轴安装在基座上,面板安装在电动转轴上,面板在电动转轴的带动下180°转动,面板上且位于同一水平线从左到右等距安装有三个收音器分别为a、b、c,其瞬时音量分别为Ya、Yb、Yc,当Ya大于Yb时电动转轴向左转,当Yb小于Yc时电动转轴向右转,面板上还设置有扬声器;
其中去噪模块按一定的采样频率,即每个一小段时间,测得模拟信号的模拟电压值,通过采样时测的的模拟电压值,进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值,根据采样频率和量化值通过小波去噪法得到去噪后的声音数据;其中采样频率是指将模拟声音波形数字化后每秒钟所抽取的声波幅度的样本次数,其单位为kHz(千赫兹);
语音识别购票模块对输入的原始语音数据进行断电检测、语音分帧和预加重处理,然后使用Mel倒谱系数取出语音数据中冗余信息,采用隐马尔可夫模型模拟人的语音过程,采用N-gram模型通过词汇出现先后顺序的概率计算概率最大的单次序列,根据已经训练好的声学模型、语音模型或者字典建立一个由语音因素组成的有向网络并寻找到最佳路径,也就确定了识别的文字信息,而后通过现有的购票平台模糊查询文字信息所对应的路线以及价格,通过语音和显示屏两种方式反馈给旅客。
其中,所述采样频率为5-11kHz,采样频率决定声音失真的大小,采样频率越高失真越小,为保证不失真,大部分音像制品的采样频率设置在40kHz或者以上,标准CD的采样频率是44kHz,网站音频播放标准是22kHz,但上述各种标准都是给人听的,用于机器识别时有5kHz就已经足够,采样频率低对于采样数据的存放空间需求较小,降低了系统的构建成本。
其中,所述小波去噪法应用小波分解与重构的方法(也就是Mallet算法),去噪具体步骤是:根据需要,将含有噪声信号在某一尺度下分解到不同的频带内,然后再将噪声所处的频带置零或直接提取有用信号所在的频带,进行小波重构,从而达到去噪的目的。
其中,所述模糊查询方法为:查询旅客输入的起始地和目的地最近的地铁站点作为起始站和终点站,计算价钱并将价钱信息输出,查询这两个站点之间所有地铁线路,查询出两站点之间所有线路的中转站,将这些中转站放入一个一维数组中,查询从起始站点到达中转站的所有地铁线路,将线路信息中的线路名称、起始和中转站名称以及两站点之间的站点个数存入一个二维数组,在查询从中转站到目的地站点的所有地铁线路,将线路信息中的线路名称、中转站和目的站点名称以及两站之间的站点个数存入另一个二维数组,判断两组路线之间是否存在相同站点,相同站点也就是中转站,将转乘信息输出。
实施例2
所述模糊查询方法中还包括最短线路查询算法,对站点之间的个数加入一段比较站点个数的代码,通过三个临时变量用于记录所有线路中最短路径,通过临时变量记录下来的信息在输出数组中对应位置输出。
本实施例的其他结构和方法与实施例1相同。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (5)

1.基于多模态语音交互模型的地铁智能语音购票系统,它包括回声抵消模块、声源寻踪模块、去噪模块和语音识别购票模块;
其中回声抵消模块通过估计回声路径的特征参数,产生一个模拟的回音路径,得出模拟回声信号,从接收信号中减去该信号,实现回声抵消;
其中声源寻踪模块包括基座、电动转轴和面板,所述电动转轴安装在基座上,面板安装在电动转轴上,面板在电动转轴的带动下180°转动,面板上且位于同一水平线从左到右等距安装有三个收音器分别为a、b、c,其瞬时音量分别为Ya、Yb、Yc,当Ya大于Yb时电动转轴向左转,当Yb小于Yc时电动转轴向右转,面板上还设置有扬声器;
其中去噪模块按一定的采样频率,即每个一小段时间,测得模拟信号的模拟电压值,通过采样时测的的模拟电压值,进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值,根据采样频率和量化值通过小波去噪法得到去噪后的声音数据;其中采样频率是指将模拟声音波形数字化后每秒钟所抽取的声波幅度的样本次数;
语音识别购票模块对输入的原始语音数据进行断电检测、语音分帧和预加重处理,然后使用Mel倒谱系数取出语音数据中冗余信息,采用隐马尔可夫模型模拟人的语音过程,采用N-gram模型通过词汇出现先后顺序的概率计算概率最大的单次序列,根据已经训练好的声学模型、语音模型或者字典建立一个由语音因素组成的有向网络并寻找到最佳路径,也就确定了识别的文字信息,而后通过现有的购票平台模糊查询文字信息所对应的路线以及价格,通过语音和显示屏两种方式反馈给旅客。
2.根据权利要求1所述的基于多模态语音交互模型的地铁智能语音购票系统,其特征在于:所述采样频率为5-11kHz。
3.根据权利要求1所述的基于多模态语音交互模型的地铁智能语音购票系统,其特征在于:所述小波去噪法应用小波分解与重构的方法,去噪具体步骤是:根据需要,将含有噪声信号在某一尺度下分解到不同的频带内,然后再将噪声所处的频带置零或直接提取有用信号所在的频带,进行小波重构,从而达到去噪的目的。
4.根据权利要求1所述的基于多模态语音交互模型的地铁智能语音购票系统,其特征在于:所述模糊查询方法为:查询旅客输入的起始地和目的地最近的地铁站点作为起始站和终点站,计算价钱并将价钱信息输出,查询这两个站点之间所有地铁线路,查询出两站点之间所有线路的中转站,将这些中转站放入一个一维数组中,查询从起始站点到达中转站的所有地铁线路,将线路信息中的线路名称、起始和中转站名称以及两站点之间的站点个数存入一个二维数组,在查询从中转站到目的地站点的所有地铁线路,将线路信息中的线路名称、中转站和目的站点名称以及两站之间的站点个数存入另一个二维数组,判断两组路线之间是否存在相同站点,相同站点也就是中转站,将转乘信息输出。
5.根据权利要求4所述的基于多模态语音交互模型的地铁智能语音购票系统,其特征在于:所述模糊查询方法中还包括最短线路查询算法,对站点之间的个数加入一段比较站点个数的代码,通过三个临时变量用于记录所有线路中最短路径,通过临时变量记录下来的信息在输出数组中对应位置输出。
CN202010154838.1A 2020-03-08 2020-03-08 基于多模态语音交互模型的地铁智能语音购票系统 Pending CN113436630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010154838.1A CN113436630A (zh) 2020-03-08 2020-03-08 基于多模态语音交互模型的地铁智能语音购票系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010154838.1A CN113436630A (zh) 2020-03-08 2020-03-08 基于多模态语音交互模型的地铁智能语音购票系统

Publications (1)

Publication Number Publication Date
CN113436630A true CN113436630A (zh) 2021-09-24

Family

ID=77752370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010154838.1A Pending CN113436630A (zh) 2020-03-08 2020-03-08 基于多模态语音交互模型的地铁智能语音购票系统

Country Status (1)

Country Link
CN (1) CN113436630A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971842A (zh) * 2021-10-20 2022-01-25 成都智元汇信息技术股份有限公司 一种电子设备模糊购票的方法及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030002180A (ko) * 2001-06-30 2003-01-08 엘지전자 주식회사 이동통신 단말기에서의 지하철 노선 안내 방법
US20030133577A1 (en) * 2001-12-07 2003-07-17 Makoto Yoshida Microphone unit and sound source direction identification system
CN1885982A (zh) * 2005-06-21 2006-12-27 乐金电子(中国)研究开发中心有限公司 移动通信终端的地铁线路信息提供方法
CN103826173A (zh) * 2014-02-20 2014-05-28 上海理工大学 追声话筒及其追声话筒控制方法
CN208314860U (zh) * 2018-05-10 2019-01-01 科大讯飞股份有限公司 一种智能语音售票装置及系统
CN109242589A (zh) * 2018-06-29 2019-01-18 南京熊猫电子股份有限公司 轨道交通智能语音购票的系统及购票方法
CN109636525A (zh) * 2018-12-11 2019-04-16 苏州创旅天下信息技术有限公司 一种语音购票方法及系统
CN110059849A (zh) * 2019-03-06 2019-07-26 阿里巴巴集团控股有限公司 路径确定方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030002180A (ko) * 2001-06-30 2003-01-08 엘지전자 주식회사 이동통신 단말기에서의 지하철 노선 안내 방법
US20030133577A1 (en) * 2001-12-07 2003-07-17 Makoto Yoshida Microphone unit and sound source direction identification system
CN1885982A (zh) * 2005-06-21 2006-12-27 乐金电子(中国)研究开发中心有限公司 移动通信终端的地铁线路信息提供方法
CN103826173A (zh) * 2014-02-20 2014-05-28 上海理工大学 追声话筒及其追声话筒控制方法
CN208314860U (zh) * 2018-05-10 2019-01-01 科大讯飞股份有限公司 一种智能语音售票装置及系统
CN109242589A (zh) * 2018-06-29 2019-01-18 南京熊猫电子股份有限公司 轨道交通智能语音购票的系统及购票方法
CN109636525A (zh) * 2018-12-11 2019-04-16 苏州创旅天下信息技术有限公司 一种语音购票方法及系统
CN110059849A (zh) * 2019-03-06 2019-07-26 阿里巴巴集团控股有限公司 路径确定方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971842A (zh) * 2021-10-20 2022-01-25 成都智元汇信息技术股份有限公司 一种电子设备模糊购票的方法及电子设备

Similar Documents

Publication Publication Date Title
US10593333B2 (en) Method and device for processing voice message, terminal and storage medium
CN1119794C (zh) 分布式话音识别系统
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN1622200B (zh) 多传感语音增强方法和装置
CN110648553B (zh) 一种站点提醒方法、电子设备及计算机可读存储介质
CN104183144B (zh) 一种实时路况信息生成方法和系统
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN1591574B (zh) 用于减少在语音信号中的噪音的方法和系统
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
US8374868B2 (en) Method of recognizing speech
CN101071564A (zh) 把词表外语音与词表内语音区别开
CN103204100B (zh) 一种出租车顶灯语音控制系统
JP2000510944A (ja) データ記憶のためにオーディオcdプレイヤーを利用するナビゲーションシステム
CN107104994A (zh) 语音识别方法、电子装置及语音识别系统
CN111833554A (zh) 售票机、售票机系统、售票方法和装置
CN110767215A (zh) 一种训练语音识别模型、识别语音的方法及装置
CN113436630A (zh) 基于多模态语音交互模型的地铁智能语音购票系统
Hansen et al. CU-MOVE: Advanced in-vehicle speech systems for route navigation
JP6729494B2 (ja) 情報管理システムおよび情報管理方法
CN115168563B (zh) 一种基于意图识别的机场服务引导方法、系统及装置
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
US20070143104A1 (en) Learning statistically characterized resonance targets in a hidden trajectory model
Couvreur et al. A corpus-based approach for robust ASR in reverberant environments.
JP2017182251A (ja) 解析装置
CN114242061A (zh) 一种基于语音识别的订单派发方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210924

WD01 Invention patent application deemed withdrawn after publication