CN111081252A - 语音数据处理方法、装置、计算机设备和存储介质 - Google Patents

语音数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111081252A
CN111081252A CN201911219857.1A CN201911219857A CN111081252A CN 111081252 A CN111081252 A CN 111081252A CN 201911219857 A CN201911219857 A CN 201911219857A CN 111081252 A CN111081252 A CN 111081252A
Authority
CN
China
Prior art keywords
text data
data
response result
interactive response
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911219857.1A
Other languages
English (en)
Inventor
王晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN201911219857.1A priority Critical patent/CN111081252A/zh
Publication of CN111081252A publication Critical patent/CN111081252A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。方法包括:获取语音数据以及语音数据对应的标注文本数据;获取标注文本数据对应的第一交互响应结果;将语音数据转化为目标文本数据;获取目标文本数据对应的第二交互响应结果;当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据。采用本申请的方案能够提高对语音转文字进行评估的准确性。

Description

语音数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音数据处理方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着自然语言技术的发展,出现了语音识别技术。在语音识别中,会存在识别错误的情况。传统的技术中通常采用将语音数据转化为待评估文本数据,再将待评估文本数据与该语音数据对应的标注文本数据进行比较,从而评估语音识别结果的准确率。然而,目前的语音数据处理方法,存在对准确率评估不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种语音数据处理方法、装置、计算机设备和计算机存储介质,能够提高对语音转文字进行评估的准确性。
一种语音数据处理方法,所述方法包括:
获取语音数据以及所述语音数据对应的标注文本数据;
获取所述标注文本数据对应的第一交互响应结果;
将所述语音数据转化为目标文本数据;
获取所述目标文本数据对应的第二交互响应结果;
当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据。
一种语音数据处理装置,所述装置包括:
第一获取模块,用于获取语音数据以及所述语音数据对应的标注文本数据;
所述第一获取模块,还用于获取所述标注文本数据对应的第一交互响应结果;
转化模块,用于将所述语音数据转化为目标文本数据;
第二获取模块,用于获取所述目标文本数据对应的第二交互响应结果;
确定模块,用于当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取语音数据以及所述语音数据对应的标注文本数据;
获取所述标注文本数据对应的第一交互响应结果;
将所述语音数据转化为目标文本数据;
获取所述目标文本数据对应的第二交互响应结果;
当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取语音数据以及所述语音数据对应的标注文本数据;
获取所述标注文本数据对应的第一交互响应结果;
将所述语音数据转化为目标文本数据;
获取所述目标文本数据对应的第二交互响应结果;
当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据。
上述语音数据处理方法、装置、计算机设备和存储介质,获取语音数据以及语音数据对应的标注文本数据,获取标注文本数据对应的第一交互响应结果,即获取了正确的文本数据以及正确的交互响应结果;将语音数据转化为目标文本数据,获取目标文本数据对应的第二交互响应结果,当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据,即将交互响应结果作为影响语音转化正确率的因素,与传统技术仅仅通过字准确率评估语音转化正确率相比,充分考虑语音数据的交互应用场景,提高对语音转文字进行评估的准确性。
附图说明
图1为一个实施例中语音数据处理方法的应用环境图;
图2为一个实施例中语音数据处理方法的流程示意图;
图3为另一个实施例中语音数据处理方法的流程示意图;
图4为又一个实施例中语音数据处理方法的流程示意图;
图5为一个实施例中将语音数据转化为目标文本数据的流程示意图;
图6为一个实施例中语音数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例中提供的语音数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。语音数据处理方法也可仅应用于终端102或者仅应用于服务器104中。本申请中实施例中提供的语音数据处理方法可应用于在会话场景中对语音转化正确率的评估。
在一个实施例中,如图2所示,为一个实施例中语音数据处理方法的流程示意图,以语音数据处理方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取语音数据以及语音数据对应的标注文本数据。
具体地,终端可获取待测试的语音数据以及该语音数据对应的标注文本数据。其中,该语音数据可以转化为文本数据。该语音数据可以是用户表达出来的语音数据。语音数据可以是指一句话,也可以包含至少两句话。例如针对电话外呼催收场景,会收集线上的催收录音,整理成语音测试集,并进行标注。标注文本数据是指对该语音数据进行标注得到的文本数据。标注文本数据可以是管理员标注的文本数据。标注文本数据即可视为该语音数据的正确标注。
本实施例中,终端可从服务器中获取语音数据以及语音数据对应的标注文本数据。
步骤204,获取标注文本数据对应的第一交互响应结果。
其中,在终端上可包含电话机器人模块。其中,电话机器人模块用于对语音数据转化而成的文本数据产生交互响应结果。即电话机器人用于对用户发出的语音数据进行回应。第一交互响应结果即为电话机器人对标注文本数据所产生的响应结果。
具体地,终端将标注文本数据输入至电话机器人模块,得到标注文本数据对应的第一交互响应结果。例如,语音数据为“我手头紧没有钱,可以明天还款吗?”标注文本数据可为“我手头紧没有钱可以明天还款吗”。第一交互响应结果可以是“可以明天还款”、“可以”、“不可以”等不限于此。
本实施例中,终端可从服务器中获取标注文本数据对应的第一交互响应结果。
步骤206,将语音数据转化为目标文本数据。
具体地,终端可将语音数据输入至语音识别模型中进行转化,得到目标文本数据。
步骤208,获取目标文本数据对应的第二交互响应结果。
其中,第二交互响应结果可以与第一交互响应结果相同,也可以不相同。
具体地,终端将目标文本数据输入至电话机器人模块,得到目标文本数据对应的第二交互响应结果。同样地,例如,语音数据为“我手头紧没有钱,可以明天还款吗?”目标文本数据可以为“我手头紧没钱可以明天还款吗”等不限于此。第二交互响应结果可以是“可以的”、“不可以”、“可以明天还款”等不限于此。
步骤210,当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据。
具体地,当第一交互响应结果和第二交互响应结果相一致时,确定目标文本数据为正确文本数据。
或者,终端可计算第一交互响应结果和第二交互响应结果的匹配度阈值。当第一交互响应结果和第二交互响应结果达到匹配度阈值时,确定目标文本数据为正确文本数据。其中,匹配度阈值可以为95%、90%、85%、80%等不限于此。
上述语音数据处理方法中,获取语音数据以及语音数据对应的标注文本数据,获取标注文本数据对应的第一交互响应结果,即获取了正确的文本数据以及正确的交互响应结果;将语音数据转化为目标文本数据,获取目标文本数据对应的第二交互响应结果,当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据,即将交互响应结果作为影响语音转化正确率的因素,与传统技术仅仅通过字准确率评估语音转化正确率相比,充分考虑语音数据的交互应用场景,提高对语音转文字进行评估的准确性。
在一个实施例中,获取目标文本数据对应的第二交互响应结果,包括:对目标文本数据进行意图识别,得到目标特征数据;根据目标特征数据获取对应的第二交互响应结果。
其中,目标特征数据可用于标识目标文本数据中的特征。例如,目标特征数据可以是目标文本数据中的特征词、命名实体、关键词等。
具体地,终端对目标文本数据进行向量转化、特征提取、意图分类等处理,得到目标特征数据。终端根据目标特征数据获取对应的第二交互响应结果。例如,目标文本数据为“我手里没有钱,现在无法还款”,目标特征数据可以是“不还款”,那么对应的第二交互响应结果可以是通过语音播报“不还款会有严重后果”。
本实施例中,在电话机器人场景中,将语音数据转化为目标文本数据。终端通过文本机器人根据目标文本数据进行语义理解,并执行响应。
上述语音数据处理方法,对目标文本数据进行意图识别,得到目标特征数据;根据目标特征数据获取对应的第二交互响应结果,能够得到语言的真正意图,并使用计算机设备得出的第二交互响应结果作为评估语音转化准确率的评估标准,提高对语音转文字进行评估的准确性。
在一个实施例中,根据目标特征数据获取对应的第二交互响应结果,包括:根据目标特征数据确定语音数据对应的问答节点;根据问答节点获取对应的第二交互响应结果。
其中,问答节点可用于表示交互到达的流程节点。一个问题可为一个节点,一个答案也可以为一个节点。例如催收场景,再提醒用户还款之后,用户可表示已经还了、或表示没钱还,此时会接入会话状态管理流程图不同的节点,一个处理“还了”逻辑,另一个处理“没钱还”逻辑。
具体地,在终端上可预设对话内容。例如对话内容可以为问题与答案的对应关系。终端可根据目标特征数据从问答节点库中确定语音数据对应的问答节点。终端根据问答节点获取对应的第二交互响应结果。例如,终端在“提醒播报”播报“请问能在今晚9点前还款吗”。用户发出语音“我手头紧没有钱,可以明天还吗”。终端获取语音数据“我手头紧没有钱,可以明天还吗”。终端对语音数据进行意图识别,识别到用户的意图,提取得到“没有钱”、“明天还可以吗”关键词,确定问答节点为“晚点还”。终端根据问答节点获取对应的第二交互响应结果“晚点还款会产生严重后果”。
上述语音数据处理方法,根据目标特征数据确定语音数据对应的问答节点,根据问答节点获取对应的第二交互响应结果,能得到语言的真正意图,并使用计算机设备得出的第二交互响应结果作为评估语音转化准确率的评估标准,充分考虑影响交互响应结果的因素,提高对语音转文字进行评估的准确性。
在一个实施例中,语音数据包括句子语音数据,标注文本数据包括标注句子文本数据,目标文本数据包括目标句子文本数据。当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据,包括:当第一交互响应结果和第二交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据。
其中,句子语音数据是指语音数据仅为一句话。标注句子文本数据是指标注的文本数据仅为一句话。目标句子文本数据是指目标文本数据仅为一句话。
具体地,每句话均有对应的交互响应结果。当第一交互响应结果和第二交互响应结果一致时,确定目标句子文本数据为正确句子文本数据。
上述语音数据处理方法,当第一交互响应结果和第二交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据,语音数据可仅为一个句子,用于确定正确句子文本数据,提高对语音句子转文字句子进行评估的准确性。
在一个实施例中,标注文本数据包括至少两个标注句子文本数据。第一交互响应结果包括每个标注句子文本数据对应的参考交互响应结果。如图3所示,为另一个实施例中语音数据处理方法的流程示意图,将语音数据转化为目标文本数据,包括:
步骤302,将语音数据按照句子进行划分,得到至少两个句子语音数据。
其中,语音数据可为一段话,即语音数据中包含至少两个句子。那么语音数据对应的标注文本数据也包括至少两个标注句子文本数据。由于每个句子均有对应的交互响应结果,则终端可按照停顿时长将语音数据划分为一个个句子。例如,停顿大于n毫秒处则可划分为句子。其中n为正实数。或者,终端可将语音数据输入至语音识别模型,得到至少两个句子语音数据。
步骤304,对至少两个句子语音数据中每个句子语音数据进行转化,得到每个句子语音数据对应的目标句子文本数据。
具体地,终端将至少两个句子语音数据中每个语音数据输入至第一语音识别模型中进行转化,得到每个句子语音数据对应的目标句子文本数据。
获取目标文本数据对应的第二交互响应结果,包括:
步骤306,将目标句子文本数据与问答节点集中的问答节点进行匹配,得到目标句子文本数据对应的问答节点。
其中,问答节点集中可包括问题节点和答案节点等。
具体地,终端对目标句子文本数据进行意图识别,得到目标特征数据。终端根据目标特征数据将目标句子文本数据与问答节点集中的问答节点进行匹配,得到该目标句子文本数据对应的问答节点。例如,目标句子文本数据为“我手头紧没有钱,可以明天还吗”,那么问答节点集中可以包括“晚点还”、“不还钱”、“马上还”等,则将目标句子文本与问答节点集中的问答节点进行匹配,得到目标句子文本数据对应的问答节点为“晚点还”。
步骤308,根据问答节点获取目标句子文本数据对应的目标交互响应结果。
其中,每个问答节点都有对应的目标交互响应结果。
具体地,终端根据问答节点从数据库中或从服务器中获取目标句子文本数据对应的目标交互响应结果。
当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据,包括:
步骤310,当参考交互响应结果和目标交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据。
具体地,当参考交互响应结果和目标交互相应结果相一致,或者匹配度达到匹配度阈值时,确定目标句子文本数据为正确句子文本数据。
上述语音数据处理方法,将语音数据按照句子进行划分,得到至少两个句子语音数据,对至少两个句子语音数据中每个句子语音数据进行转化,得到每个句子语音数据对应的目标句子文本数据,能够将一段话划分为一个个句子进行处理;将目标句子文本数据与问答节点集中的问答节点进行匹配,得到目标句子文本数据对应的问答节点,根据问答节点获取目标句子文本数据对应的目标交互响应结果,当参考交互响应结果和目标交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据,每个句子均有对应的交互响应结果,能够确定正确句子文本数据,实现对句子准确率的评估,提高对句子准确性进行评估的准确性。
在一个实施例中,标注文本数据包括至少两个标注句子文本数据,第一交互响应结果包括每个标注句子文本数据对应的参考交互响应结果。将语音数据转化为目标文本数据,包括:将语音数据转化为目标文本数据;将目标文本数据划分得到目标句子文本数据。上述语音数据处理方法,每个句子均有对应的交互响应结果,能够确定正确句子文本数据,实现对句子准确率的评估,提高对句子转化准确性进行评估的准确性。
在一个实施例中,获取标注文本数据对应的第一交互响应结果,包括:对标注文本数据进行意图识别,得到标注特征数据;根据标注特征数据确定问答节点;根据问答节点获取第一交互响应结果。
其中,标注特征数据可用于标识标注文本数据中的特征。例如,标注特征数据可以是标注文本数据中的特征词、命名实体、关键词等。
具体地,终端获取标注文本数据。终端采用与对目标文本数据进行意图识别相同的方式对标注文本数据进行意图识别,得到标注特征数据。终端根据标注特征数据确定问答节点,并根据问答节点获取第一交互响应结果。例如,标注文本数据为“我手里没有钱,现在无法还款”,标注特征数据可以是“不还款”,那么对应的第一交互响应结果可以是通过语音播报“不还款会有严重后果”。
上述语音数据处理方法,获取标注文本数据,对标注文本数据进行意图识别,得到标注特征数据,根据标注特征数据确定问答节点,根据问答节点获取第一交互响应结果,能够通过意图识别理解,提高对语音转文本的评估准确性。
在一个实施例中,如图4所示,为又一个实施例中语音数据处理方法的流程示意图。终端或服务器可使用电话机器人节点系统进行会话状态管理,根据每个句子语音数据构建节点响应信息。每个句子对应一个节点。其中,标注响应即第一交互响应结果,转写响应即第二交互响应结果。根据多个节点的响应结果之间的匹配结果,可计算出语音识别的句准确率。
在一个实施例中,如图5所示,为一个实施例中将语音数据转化为目标文本数据的流程示意图,将语音数据转化为目标文本数据,包括:
步骤502,将语音数据输入至第一语音识别模型,得到目标文本数据。
其中,第一语音识别模型是根据语音数据训练而成的。第一语音识别模型用于将语音转化为文字。
具体地,终端将语音数据输入至第一语音识别模型,得到目标文本数据。
该语音数据处理方法还包括:
步骤504,获取语音数据对应的第一句子数量以及正确文本数据对应的第二句子数量。
其中,语音数据中可包括多个语音句子。第一句子数量与第二句子数量可以相同也可以不相同。
具体地,终端使用语音测试集对第一语音识别模型进行测试。终端获取语音数据对应的第一句子数量,以及正确文本数据对应的第二句子数量。例如,语音数据中有100个句子,正确文本数据对应的第二句子数量可为90个。
步骤506,根据第一句子数量以及第二句子数量确定第一语音识别模型的句准确率。
具体地,终端根据第一句子数量以及第二句子数量进行计算,确定第一语音识别模型的句准确率。例如,语音数据中有100个句子,正确文本数据对应的第二句子数量可为90个,那么句准确率为90%。
步骤508,根据句准确率调整第一语音识别模型中的参数,得到第二语音识别模型。
具体地,当句准确率低于准确率阈值时,终端将错误语音样本数据输入至第一语音识别模型,调整第一语音识别模型中的参数,得到第二语音识别模型。
上述语音数据处理方法,将语音数据输入至第一语音识别模型,得到目标文本数据,获取语音数据对应的第一句子数量以及正确文本数据对应的第二句子数量,根据第一句子数量以及第二句子数量确定第一语音识别模型的句准确率,根据句准确率调整第一语音识别模型中的参数,得到第二语音识别模型,能够提高语音识别的准确性。
在一个实施例中,传统的方式以字准确率来衡量语音识别结果,在交互场景,例如在电话机器人的场景下,关注的是跑通率或体验,是以能否正确理解客户意图并做出相应处理衡量,包含语音识别+语义理解联动,此情况下语音识别关键在于对关键词实体词、说话者意图含义正确性上,而字准确率仅在整体字层面,缺少对涉及关键词、意图的整体体验影响衡量能力。
例如,标注文本数据为“我手里没有钱,现在无法还款”,标注特征数据可以为“暂时无法还款”,对应的第一交互响应结果可以是通过语音播报“可以在一个月内还款”。目标文本数据为“我手里没有钱,现在无法还款”,目标特征数据可以是“不还款”,那么对应的第二交互响应结果可以是通过语音播报“不还款会有严重后果”。此时,相同的标注文本数据,对语义的理解并不相同,从而也会导致第一交互响应结果和第二交互响应结果不一致。因此,仅仅通过语音转化成文字的字准确率来评估语音识别模型的识别正确率是不恰当的。通过本申请实施例中的方式,能够更加准确地反映交互结果,能够提高评估的准确性。
在一个实施例中,一种语音数据处理方法,包括:
步骤a1,获取语音数据以及语音数据对应的标注文本数据。
步骤a2,对标注文本数据进行意图识别,得到标注特征数据。
步骤a3,根据标注特征数据确定问答节点。
步骤a4,根据问答节点获取第一交互响应结果。
步骤a5,将语音数据输入至第一语音识别模型,得到目标文本数据。
步骤a6,对目标文本数据进行意图识别,得到目标特征数据。
步骤a7,根据目标特征数据确定语音数据对应的问答节点。
步骤a8,根据问答节点获取对应的第二交互响应结果。
步骤a9,当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据。
步骤a10,获取语音数据对应的第一句子数量以及正确文本数据对应的第二句子数量。
步骤a11,根据第一句子数量以及第二句子数量确定第一语音识别模型的句准确率。
步骤a12,根据句准确率调整第一语音识别模型中的参数,得到第二语音识别模型。
上述语音数据处理方法,获取语音数据以及语音数据对应的标注文本数据,获取标注文本数据对应的第一交互响应结果,即获取了正确的文本数据以及正确的交互响应结果;将语音数据转化为目标文本数据,获取目标文本数据对应的第二交互响应结果,当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据,即将交互响应结果作为影响语音转化正确率的因素,与传统技术仅仅通过字准确率评估语音转化正确率相比,充分考虑语音数据的交互应用场景,提高对语音转文字进行评估的准确性;将语音数据输入至第一语音识别模型,得到目标文本数据,获取语音数据对应的第一句子数量以及正确文本数据对应的第二句子数量,根据第一句子数量以及第二句子数量确定第一语音识别模型的句准确率,根据句准确率调整第一语音识别模型中的参数,得到第二语音识别模型,能够提高语音识别的准确性。
应该理解的是,虽然图2至5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种语音数据处理装置,包括:第一获取模块602、转化模块604、第二获取模块606和确定模块608,其中:
第一获取模块602,用于获取语音数据以及语音数据对应的标注文本数据。
第一获取模块602,还用于获取标注文本数据对应的第一交互响应结果。
转化模块604,用于将语音数据转化为目标文本数据。
第二获取模块606,用于获取目标文本数据对应的第二交互响应结果。
确定模块608,用于当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据。
上述语音数据处理装置中,获取语音数据以及语音数据对应的标注文本数据,获取标注文本数据对应的第一交互响应结果,即获取了正确的文本数据以及正确的交互响应结果;将语音数据转化为目标文本数据,获取目标文本数据对应的第二交互响应结果,当第一交互响应结果和第二交互响应结果相匹配时,确定目标文本数据为正确文本数据,即将交互响应结果作为影响语音转化正确率的因素,与传统技术仅仅通过字准确率评估语音转化正确率相比,充分考虑语音数据的应用场景,提高对语音转文字进行评估的准确性。
在一个实施例中,第二获取模块606用于对目标文本数据进行意图识别,得到目标特征数据;根据目标特征数据获取对应的第二交互响应结果。
上述语音数据处理装置,对目标文本数据进行意图识别,得到目标特征数据;根据目标特征数据获取对应的第二交互响应结果,能够得到语言的真正意图,并使用计算机设备得出的第二交互响应结果作为评估语音转化准确率的评估标准,提高对语音转文字进行评估的准确性。
在一个实施例中,第二获取模块606用于根据目标特征数据确定语音数据对应的问答节点;根据问答节点获取对应的第二交互响应结果。
上述语音数据处理装置,根据目标特征数据确定语音数据对应的问答节点,根据问答节点获取对应的第二交互响应结果,能得到语言的真正意图,并使用计算机设备得出的第二交互响应结果作为评估语音转化准确率的评估标准,充分考虑影响交互响应结果的因素,提高对语音转文字进行评估的准确性。
在一个实施例中,语音数据包括句子语音数据,标注文本数据包括标注句子文本数据,目标文本数据包括目标句子文本数据。确定模块608用于当第一交互响应结果和第二交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据。
上述语音数据处理装置,当第一交互响应结果和第二交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据,语音数据可仅为一个句子,用于确定正确句子文本数据,提高对语音句子转文字句子进行评估的准确性。
在一个实施例中,标注文本数据包括至少两个标注句子文本数据。第一交互响应结果包括每个标注句子文本数据对应的参考交互响应结果。转化模块604用于将语音数据按照句子进行划分,得到至少两个句子语音数据;对至少两个句子语音数据中每个句子语音数据进行转化,得到每个句子语音数据对应的目标句子文本数据。第二获取模块606用于将目标句子文本数据与问答节点集中的问答节点进行匹配,得到目标句子文本数据对应的问答节点;根据问答节点获取目标句子文本数据对应的目标交互响应结果。确定模块608用于当参考交互响应结果和目标交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据。
上述语音数据处理装置,将语音数据按照句子进行划分,得到至少两个句子语音数据,对至少两个句子语音数据中每个句子语音数据进行转化,得到每个句子语音数据对应的目标句子文本数据,能够将一段话划分为一个个句子进行处理;将目标句子文本数据与问答节点集中的问答节点进行匹配,得到目标句子文本数据对应的问答节点,根据问答节点获取目标句子文本数据对应的目标交互响应结果,当参考交互响应结果和目标交互响应结果相匹配时,确定目标句子文本数据为正确句子文本数据,每个句子均有对应的交互响应结果,能够确定正确句子文本数据,实现对句子准确率的评估,提高对句子准确性进行评估的准确性。
在一个实施例中,标注文本数据包括至少两个标注句子文本数据,第一交互响应结果包括每个标注句子文本数据对应的参考交互响应结果。转化模块604用于将语音数据转化为目标文本数据;将目标文本数据划分得到目标句子文本数据。上述语音数据处理装置,每个句子均有对应的交互响应结果,能够确定正确句子文本数据,实现对句子准确率的评估,提高对句子转化准确性进行评估的准确性。
在一个实施例中,第一获取模块602用于对标注文本数据进行意图识别,得到标注特征数据;根据标注特征数据确定问答节点;根据问答节点获取第一交互响应结果。
上述语音数据处理装置,获取标注文本数据,对标注文本数据进行意图识别,得到标注特征数据,根据标注特征数据确定问答节点,根据问答节点获取第一交互响应结果,能够通过意图识别理解,提高对语音转文本的评估准确性。
在一个实施例中,该语音数据处理装置还包括训练模块。转化模块604用于将语音数据输入至第一语音识别模型,得到目标文本数据。训练模块用于获取语音数据对应的第一句子数量以及正确文本数据对应的第二句子数量;根据第一句子数量以及第二句子数量确定第一语音识别模型的句准确率;根据句准确率调整第一语音识别模型中的参数,得到第二语音识别模型。
上述语音数据处理装置,将语音数据输入至第一语音识别模型,得到目标文本数据,获取语音数据对应的第一句子数量以及正确文本数据对应的第二句子数量,根据第一句子数量以及第二句子数量确定第一语音识别模型的句准确率,根据句准确率调整第一语音识别模型中的参数,得到第二语音识别模型,能够提高语音识别的准确性。
关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定,在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音数据处理方法,所述方法包括:
获取语音数据以及所述语音数据对应的标注文本数据;
获取所述标注文本数据对应的第一交互响应结果;
将所述语音数据转化为目标文本数据;
获取所述目标文本数据对应的第二交互响应结果;
当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标文本数据对应的第二交互响应结果,包括:
对所述目标文本数据进行意图识别,得到目标特征数据;
根据所述目标特征数据获取对应的第二交互响应结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标特征数据获取对应的第二交互响应结果,包括:
根据所述目标特征数据确定所述语音数据对应的问答节点;
根据所述问答节点获取对应的第二交互响应结果。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述语音数据包括句子语音数据,所述标注文本数据包括标注句子文本数据,所述目标文本数据包括目标句子文本数据;
所述当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据,包括:
当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标句子文本数据为正确句子文本数据。
5.根据权利要求1所述的方法,其特征在于,所述标注文本数据包括至少两个标注句子文本数据;所述第一交互响应结果包括每个标注句子文本数据对应的参考交互响应结果;
所述将所述语音数据转化为目标文本数据,包括:
将所述语音数据按照句子进行划分,得到至少两个句子语音数据;
对所述至少两个句子语音数据中每个句子语音数据进行转化,得到每个句子语音数据对应的目标句子文本数据;
获取所述目标文本数据对应的第二交互响应结果,包括:
将所述目标句子文本数据与问答节点集中的问答节点进行匹配,得到所述目标句子文本数据对应的问答节点;
根据所述问答节点获取所述目标句子文本数据对应的目标交互响应结果;
所述当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据,包括:
当所述参考交互响应结果和所述目标交互响应结果相匹配时,确定所述目标句子文本数据为正确句子文本数据。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述获取所述标注文本数据对应的第一交互响应结果,包括:
对所述标注文本数据进行意图识别,得到标注特征数据;
根据所述标注特征数据确定问答节点;
根据所述问答节点获取第一交互响应结果。
7.根据权利要求1所述的方法,其特征在于,所述将所述语音数据转化为目标文本数据,包括:
将所述语音数据输入至第一语音识别模型,得到目标文本数据;
所述方法还包括:
获取所述语音数据对应的第一句子数量以及所述正确文本数据对应的第二句子数量;
根据所述第一句子数量以及所述第二句子数量确定所述第一语音识别模型的句准确率;
根据所述句准确率调整所述第一语音识别模型中的参数,得到第二语音识别模型。
8.一种语音数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取语音数据以及所述语音数据对应的标注文本数据;
所述第一获取模块,还用于获取所述标注文本数据对应的第一交互响应结果;
转化模块,用于将所述语音数据转化为目标文本数据;
第二获取模块,用于获取所述目标文本数据对应的第二交互响应结果;
确定模块,用于当所述第一交互响应结果和所述第二交互响应结果相匹配时,确定所述目标文本数据为正确文本数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201911219857.1A 2019-12-03 2019-12-03 语音数据处理方法、装置、计算机设备和存储介质 Pending CN111081252A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911219857.1A CN111081252A (zh) 2019-12-03 2019-12-03 语音数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219857.1A CN111081252A (zh) 2019-12-03 2019-12-03 语音数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111081252A true CN111081252A (zh) 2020-04-28

Family

ID=70312553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219857.1A Pending CN111081252A (zh) 2019-12-03 2019-12-03 语音数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111081252A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148864A (zh) * 2020-11-25 2020-12-29 深圳追一科技有限公司 语音交互方法、装置、计算机设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7555431B2 (en) * 1999-11-12 2009-06-30 Phoenix Solutions, Inc. Method for processing speech using dynamic grammars
CN103019924A (zh) * 2011-09-23 2013-04-03 腾讯科技(深圳)有限公司 输入法智能性评测系统和方法
CN103916704A (zh) * 2013-01-07 2014-07-09 三星电子株式会社 对话型接口设备及其控制方法
CN106601237A (zh) * 2016-12-29 2017-04-26 上海智臻智能网络科技股份有限公司 交互式语音应答系统及其语音识别方法
CN107039050A (zh) * 2016-02-04 2017-08-11 阿里巴巴集团控股有限公司 对待测试语音识别系统的自动测试方法和装置
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN107644643A (zh) * 2017-09-27 2018-01-30 安徽硕威智能科技有限公司 一种语音交互系统及方法
CN107665704A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108777141A (zh) * 2018-05-31 2018-11-09 康键信息技术(深圳)有限公司 测试装置、测试的方法及存储介质
CN109360550A (zh) * 2018-12-07 2019-02-19 上海智臻智能网络科技股份有限公司 语音交互系统的测试方法、装置、设备和存储介质
CN109410948A (zh) * 2018-09-07 2019-03-01 北京三快在线科技有限公司 通信方法、装置、系统、计算机设备以及可读存储介质
CN110060663A (zh) * 2019-04-28 2019-07-26 北京云迹科技有限公司 一种应答服务的方法、装置及系统
CN110335628A (zh) * 2019-06-28 2019-10-15 百度在线网络技术(北京)有限公司 智能设备的语音测试方法、装置及电子设备
CN110415681A (zh) * 2019-09-11 2019-11-05 北京声智科技有限公司 一种语音识别效果测试方法及系统
US10475451B1 (en) * 2017-12-06 2019-11-12 Amazon Technologies, Inc. Universal and user-specific command processing

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7555431B2 (en) * 1999-11-12 2009-06-30 Phoenix Solutions, Inc. Method for processing speech using dynamic grammars
CN103019924A (zh) * 2011-09-23 2013-04-03 腾讯科技(深圳)有限公司 输入法智能性评测系统和方法
CN103916704A (zh) * 2013-01-07 2014-07-09 三星电子株式会社 对话型接口设备及其控制方法
CN107039050A (zh) * 2016-02-04 2017-08-11 阿里巴巴集团控股有限公司 对待测试语音识别系统的自动测试方法和装置
CN107665704A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备
CN106601237A (zh) * 2016-12-29 2017-04-26 上海智臻智能网络科技股份有限公司 交互式语音应答系统及其语音识别方法
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107644643A (zh) * 2017-09-27 2018-01-30 安徽硕威智能科技有限公司 一种语音交互系统及方法
US10475451B1 (en) * 2017-12-06 2019-11-12 Amazon Technologies, Inc. Universal and user-specific command processing
CN108777141A (zh) * 2018-05-31 2018-11-09 康键信息技术(深圳)有限公司 测试装置、测试的方法及存储介质
CN109410948A (zh) * 2018-09-07 2019-03-01 北京三快在线科技有限公司 通信方法、装置、系统、计算机设备以及可读存储介质
CN109360550A (zh) * 2018-12-07 2019-02-19 上海智臻智能网络科技股份有限公司 语音交互系统的测试方法、装置、设备和存储介质
CN110060663A (zh) * 2019-04-28 2019-07-26 北京云迹科技有限公司 一种应答服务的方法、装置及系统
CN110335628A (zh) * 2019-06-28 2019-10-15 百度在线网络技术(北京)有限公司 智能设备的语音测试方法、装置及电子设备
CN110415681A (zh) * 2019-09-11 2019-11-05 北京声智科技有限公司 一种语音识别效果测试方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148864A (zh) * 2020-11-25 2020-12-29 深圳追一科技有限公司 语音交互方法、装置、计算机设备和存储介质
CN112148864B (zh) * 2020-11-25 2021-05-28 深圳追一科技有限公司 语音交互方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108427707B (zh) 人机问答方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
CN109960725B (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN113420113B (zh) 语义召回模型训练、召回问答方法、装置、设备及介质
CN109858010A (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN109815333A (zh) 信息获取方法、装置、计算机设备和存储介质
CN110047469B (zh) 语音数据情感标注方法、装置、计算机设备及存储介质
CN110674131A (zh) 财务报表数据处理方法、装置、计算机设备和存储介质
CN110505504B (zh) 视频节目处理方法、装置、计算机设备及存储介质
CN110931012A (zh) 答复消息生成方法、装置、计算机设备和存储介质
CN112395391B (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN111177307A (zh) 一种基于语义理解相似度阀值配置的测试方案及系统
CN110797044A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN113255343A (zh) 标签数据的语义识别方法、装置、计算机设备及存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
Hughes Sample size and the multivariate kernel density likelihood ratio: how many speakers are enough?
CN112214998A (zh) 意图与实体的联合识别方法、装置、设备和存储介质
CN110502745B (zh) 文本信息评价方法、装置、计算机设备和存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN113420203A (zh) 对象推荐方法、装置、电子设备及存储介质
CN111081252A (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN115098722B (zh) 文本和图像的匹配方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428

RJ01 Rejection of invention patent application after publication