CN115762490A - 一种基于轨迹修正的在线强化语义学习方法 - Google Patents

一种基于轨迹修正的在线强化语义学习方法 Download PDF

Info

Publication number
CN115762490A
CN115762490A CN202211391493.7A CN202211391493A CN115762490A CN 115762490 A CN115762490 A CN 115762490A CN 202211391493 A CN202211391493 A CN 202211391493A CN 115762490 A CN115762490 A CN 115762490A
Authority
CN
China
Prior art keywords
semantic
learning method
reinforcement learning
user
original input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211391493.7A
Other languages
English (en)
Other versions
CN115762490B (zh
Inventor
利传杰
吴隶妍
陈章
吴松鹏
林少穗
庄华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangxin Communications Services Co Ltd
Original Assignee
Guangdong Guangxin Communications Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangxin Communications Services Co Ltd filed Critical Guangdong Guangxin Communications Services Co Ltd
Priority to CN202211391493.7A priority Critical patent/CN115762490B/zh
Publication of CN115762490A publication Critical patent/CN115762490A/zh
Application granted granted Critical
Publication of CN115762490B publication Critical patent/CN115762490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出了一种基于轨迹修正的在线强化语义学习方法,包括以下步骤:获取用户的原始输入语音数据;在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居,组成动态刷新的最近邻居数据集;基于最近邻居数据集的历史统计和语音修正记录库,通过强化学习方法对原始输入语音数据的轨迹进行修正,输出准确的语音识别结果。本发明能够采用在线刷新的强化学习方法来实现语义强化,实现基于用户发音习惯学习的轨迹修正。

Description

一种基于轨迹修正的在线强化语义学习方法
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于轨迹修正的在线强化语义学习方法。
背景技术
经过多年积累,市面上已经出现了诸如科大讯飞、阿里巴巴、腾讯、百度等语音识别引擎,普通话识别率均宣称在95%以上,在全国性客服中心的应用却未如人意。原因是其面对的客户来自五湖四海,具有不同的方言和语音语调,即使说的是普通话,也难免带有口音,使得机器难以识别和理解,人机交互进程推进受到障碍。为此,需要研究一套方法,基于历史统计和语音修正记录库进行分类在线强化学习,应对方言土语和不同发音习惯。
发明内容
针对现有技术的不足,本发明提出一种基于轨迹修正的在线强化语义学习方法,能够实现基于用户发音习惯学习的轨迹修正。
本发明的技术方案是这样实现的:
一种基于轨迹修正的在线强化语义学习方法,包括以下步骤:获取用户的原始输入语音数据;在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居,组成动态刷新的最近邻居数据集;基于最近邻居数据集的历史统计和语音修正记录库,通过强化学习方法对原始输入语音数据的轨迹进行修正,输出准确的语音识别结果。
进一步地实施方式,定义最近语义邻居时,还包括以下步骤:
定义距离函数d,根据距离函数d找到N1个相似用户,提炼所述用户的公共干预策略;使用所述公共干预策略对所述用户进行干预,得到干预效果;比较所述干预效果的近似度,选取近似度最高的用户组成所述最近邻居数据集。
进一步地实施方式定义距离函数d时,采用动态时间扭曲算法以最小化配对状态的欧几里得距离之和的方式找到两条迹线的时间点的最佳匹配。
与现有技术相比,本发明具有以下优点:
本发明通过动态定义最近语义邻居,实现最近邻居数据集动态刷新,从而高效、精准的个性化语义识别干预策略,能够按照地域进行准确的语音识别;
附图说明
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于轨迹修正的在线强化语义学习方法的流程图;
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明实施方式公开了一种基于轨迹修正的在线强化语义学习方法,包括以下步骤:
S01.获取用户的原始输入语音数据;
S02.在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居,组成动态刷新的最近邻居数据集;
S03.基于最近邻居数据集的历史统计和语音修正记录库,通过强化学习方法对原始输入语音数据的轨迹进行修正,输出准确的语音识别结果。
具体地实施方式,动态刷新最近的语义邻居,通过发现历史数据库中具备相同或相近发音习惯的历史记录,从而结合特定的识别技巧对新输入数据进行特定处理。定义最近邻居是根据距离函数d与使用公共策略干预后的效果e来判定的;S21.根据距离函数d找到N1个比较相似的用户(N1个较近的邻居,且状况良好的邻居)收集的数据,提炼出其公共干预策略;S22.采用公共策略对该用户进行干预,获得干预效果;S23.根据干预效果的近似度找到最相似的用户,组成其最近的邻居集。
最近邻居的定义可以使最近邻居数据集动态的刷新。因为当用户变化时,用户之间的距离会生变化,其次会使用最近邻居中的已存在的规则对当前用户进行干预,利用干预效果的差异剔除掉不太相关的用户,从而实现用户最近邻居的动态刷新。
使用动态时间扭曲(DTW)来定义距离函数d,以最小化配对状态的欧几里德距离之和的方式找到两条迹线的时间点的最佳匹配,从而寻找历史语音数据库中与最新输入数据语义最近的邻居。
具体地实施方式,为了寻找历史语音数据库中与最新输入数据/语义最近的邻居,需要定义相应距离函数d来估计用户输入的相似性。本项目使用动态时间扭曲(DynamicTime Warping,DTW)来定义距离。DTW是一种测量两个时间序列距离的技术(可以将轨迹视为时间序列)。该技术计算它们之间的最佳匹配,并基于该最佳匹配计算距离。DTW不仅允许移位的轨迹,还考虑到不同轨迹之间可能存在不同的速度。要计算两条迹线的距离dtw(∑u1,∑u2),DTW算法以最小化配对状态的欧几里德距离之和的方式找到两条迹线的时间点的最佳匹配,由于这些配对是有序的,所以配对带来了时间顺序需要保持(单调)的约束。因此,跟踪的第一个数据点必须匹配在一起,最后的数据点也是如此。
进一步地实施方式,通过强化学习方法对上述轨迹修正,从而形成更为准确的识别结果,并且,将识别能力封装到平台以供复用。
基于历史统计和语音修正记录库进行分类在线强化学习,将是应对方言土语和不同发音习惯的有效措施。采用在线刷新的强化学习方法来实现语义强化,实现基于用户发音习惯学习的轨迹修正,从而构造高效、精准的个性化语义识别干预策略。
本实施方式的方法可以生成高度个性化的策略。由于使用了该特定用户的最近邻居,因此保证它们与当前用户最相似(与基于群集的方法相反)。
本发明的有益效果包括:
1、主流的语料库建立方式是采集样本加人工打标识,这种方式构建基础语料是必要的,但用于优化识别会导致语料库极度冗余和庞大。采用基于轨迹修正的在线强化语义学习能够在不大幅增加语料库规模的前提下大幅提升识别率。
2、采用强化学习算法在一定程度上具备解决复杂问题的通用智能,对于各种不同的方言可替换语料库,进行通用训练。
3、上述方法能够封装到平台中,为全国呼叫中心提供服务。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于轨迹修正的在线强化语义学习方法,其特征在于,包括以下步骤:
获取用户的原始输入语音数据;
在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居,组成动态刷新的最近邻居数据集;
基于最近邻居数据集的历史统计和语音修正记录库,通过强化学习方法对原始输入语音数据的轨迹进行修正,输出准确的语音识别结果。
2.根据权利要求1所述的基于轨迹修正的在线强化语义学习方法,其特征在于,定义最近语义邻居时,还包括以下步骤:
定义距离函数d,根据距离函数d找到N1个相似用户,提炼所述用户的公共干预策略;
使用所述公共干预策略对所述用户进行干预,得到干预效果;
比较所述干预效果的近似度,选取近似度最高的用户组成所述最近邻居数据集。
3.根据权利要求2所述的基于轨迹修正的在线强化语义学习方法,其特征在于,定义距离函数d时,采用动态时间扭曲算法以最小化配对状态的欧几里得距离之和的方式找到两条迹线的时间点的最佳匹配。
CN202211391493.7A 2022-11-08 2022-11-08 一种基于轨迹修正的在线强化语义学习方法 Active CN115762490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211391493.7A CN115762490B (zh) 2022-11-08 2022-11-08 一种基于轨迹修正的在线强化语义学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211391493.7A CN115762490B (zh) 2022-11-08 2022-11-08 一种基于轨迹修正的在线强化语义学习方法

Publications (2)

Publication Number Publication Date
CN115762490A true CN115762490A (zh) 2023-03-07
CN115762490B CN115762490B (zh) 2023-07-21

Family

ID=85367987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211391493.7A Active CN115762490B (zh) 2022-11-08 2022-11-08 一种基于轨迹修正的在线强化语义学习方法

Country Status (1)

Country Link
CN (1) CN115762490B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150348569A1 (en) * 2014-05-28 2015-12-03 International Business Machines Corporation Semantic-free text analysis for identifying traits
CN106960006A (zh) * 2017-02-24 2017-07-18 河海大学 一种不同轨迹间相似度度量系统及其度量方法
CN112068555A (zh) * 2020-08-27 2020-12-11 江南大学 一种基于语义slam方法的语音控制型移动机器人
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114373453A (zh) * 2021-12-02 2022-04-19 华南理工大学 一种基于运动轨迹和区分性信息的语音关键词检测方法
CN114927126A (zh) * 2022-06-17 2022-08-19 平安科技(深圳)有限公司 基于语义分析的方案输出方法、装置、设备以及存储介质
CN115687429A (zh) * 2021-07-23 2023-02-03 中国科学院地理科学与资源研究所 一种社交媒体用户行为模式挖掘方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150348569A1 (en) * 2014-05-28 2015-12-03 International Business Machines Corporation Semantic-free text analysis for identifying traits
CN106960006A (zh) * 2017-02-24 2017-07-18 河海大学 一种不同轨迹间相似度度量系统及其度量方法
CN112068555A (zh) * 2020-08-27 2020-12-11 江南大学 一种基于语义slam方法的语音控制型移动机器人
CN115687429A (zh) * 2021-07-23 2023-02-03 中国科学院地理科学与资源研究所 一种社交媒体用户行为模式挖掘方法
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114373453A (zh) * 2021-12-02 2022-04-19 华南理工大学 一种基于运动轨迹和区分性信息的语音关键词检测方法
CN114927126A (zh) * 2022-06-17 2022-08-19 平安科技(深圳)有限公司 基于语义分析的方案输出方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙睿涵: "基于空间索引的语义轨迹查询及应用研究", 《中国优秀硕士论文全文数据库 信息科技辑》, no. 3, pages 1 - 69 *

Also Published As

Publication number Publication date
CN115762490B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US10402501B2 (en) Multi-lingual virtual personal assistant
US20210074297A1 (en) Speech recognition using phoneme matching
US8793130B2 (en) Confidence measure generation for speech related searching
US20190019501A1 (en) Adaptive text-to-speech outputs
US20200082808A1 (en) Speech recognition error correction method and apparatus
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
CN103885949B (zh) 一种基于歌词的歌曲检索系统及其检索方法
EP3772734A1 (en) Speech recognition method and apparatus
CN110096567A (zh) 基于qa知识库推理的多轮对话回复选择方法、系统
WO2003010754A1 (fr) Systeme de recherche a entree vocale
EP3813060B1 (en) Speech recognition method and speech recognition apparatus
US20150081294A1 (en) Speech recognition for user specific language
CN109815336A (zh) 一种文本聚合方法及系统
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
KR20210108557A (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
US11314942B1 (en) Accelerating agent performance in a natural language processing system
CN115762490A (zh) 一种基于轨迹修正的在线强化语义学习方法
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
JP2005084436A (ja) 音声認識装置及びコンピュータプログラム
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
KR20130073643A (ko) 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
KR20220090586A (ko) 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant