CN113468305B - 一种识别口语冗余成分的方法及装置 - Google Patents

一种识别口语冗余成分的方法及装置 Download PDF

Info

Publication number
CN113468305B
CN113468305B CN202110727309.0A CN202110727309A CN113468305B CN 113468305 B CN113468305 B CN 113468305B CN 202110727309 A CN202110727309 A CN 202110727309A CN 113468305 B CN113468305 B CN 113468305B
Authority
CN
China
Prior art keywords
redundant
components
repeated
training
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110727309.0A
Other languages
English (en)
Other versions
CN113468305A (zh
Inventor
简仁贤
范敏
苏畅
吴文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202110727309.0A priority Critical patent/CN113468305B/zh
Publication of CN113468305A publication Critical patent/CN113468305A/zh
Application granted granted Critical
Publication of CN113468305B publication Critical patent/CN113468305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种识别口语冗余成分的方法及装置,方法包括:接收口语语料库和训练语料;将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。本发明能够解决现有技术中口语冗余成分界定不清以及误识别的问题。

Description

一种识别口语冗余成分的方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及识别口语冗余成分的方法及装置。
背景技术
口语对话场景是自然语言处理领域中比较重要、常见的一项。在口语对话场景中,经过ASR(语音识别)转译之后,文本往往带有很多冗余成分。冗余成分典型的语气词或叹词、指代词、标点符号、重复成分等等,这些冗余内容会影响后续的自然语言理解,需要进行识别。但是,现有技术主要采用规则方法对语气词叹词、重复成分、标点符号进行识别,利用机器学习或深度学习模型对其他冗余成分进行识别,但是,规则方法一方面对冗余成分的界定不够清楚,容易出错;另一方面所用规则过于粗暴,某些冗余候选词并不是在所有场景中都需要被识别,规则方法无法做到动态判断。
发明内容
本发明的目的在于提供一种识别口语冗余成分的方法及装置,解决口语冗余成分界定不清以及误识别的问题。
实现上述目的的技术方案是:
本申请提供一种识别口语冗余成分的方法,包括:
接收口语语料库和训练语料;
将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。
在一实施例中,所述根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型,包括:
汇总所述多余成分中的常规多余成分,获得通用词典;
汇总与预设场景相关的多余成分,获得自定义词典;
利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注;
使用标注后的训练语料进行训练,获得多余成分识别模型。
在一实施例中,所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注,包括:
根据通用词典,标识所述训练语料中的常规多余成分为第一符号;
根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号;
根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
在一实施例中,所述多余成分包括:语气词、叹词、标点符号和指代成分。
在一实施例中,所述汇总与预设场景相关的多余成分,获得自定义词典之后,还包括:
若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。
在一实施例中,所述根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型,包括:
根据所述重复成分,对训练语料中需要识别的重复成分进行标注;
使用标注后的训练语料进行训练,获得重复成分识别模型。
在一实施例中,所述根据重复成分,对训练语料中需要识别的重复成分进行标注,包括:
对训练语料进行分词,获得分词结果;
根据所述分词结果,标识所述训练语料中的重复成分为第三符号;
根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。
在一实施例中,所述利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有口语冗余成分的口语文本,包括:
将待识别口语文本输入多余成分识别模型,获得标识有多余成分的口语文本;
将待识别口语文本输入重复成分识别模型,获得标识有重复成分的口语文本;
整合标识有多余成分的口语文本和标识有重复成分的口语文本,获得标识有冗余成分的口语文本。
在一实施例中,所述方法还包括:
将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;
根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;
在所述困惑度超出预设闻值时,修正识别结果;
其中,所述困惑度表征文本通顺程度。
本申请提供一种识别口语冗余成分的装置,包括:
接收模块,接收口语语料库和训练语料;
冗余现象分类模块,将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
多余成分识别模型训练模块,根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
重复成分识别模型训练模块,根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
口语冗余成分识别模块,利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本;
口语文本结构判断模块,将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;在所述困惑度超出预设闻值时,修正识别结果。
本申请上述实施例提供的技术方案,通过将对冗余成分分类为多余成分和重复成分,可以明确数据类型和内容,使得冗余成分界定清楚,有利于能力扩展,可以灵活处理不同领域的冗余成分识别任务,降低开发成本。采用规则(词典)+机器学习的方法对任务进行处理,尽量避免规则过于简单粗暴而造成误识别的情况,对丰富多样的自然语言有很好的适应性。从而能够有效识别口语对话文本的冗余成分,使口语文本更接近规范文本,减少不相干成分的干扰,方便后续分析。
附图说明
图1是本申请一实施例提供的识别口语冗余成分的方法的流程图;
图2是本申请一实施例中获取多余成分识别模型的流程图;
图3是本申请一实施例中获取重复成分识别模型的流程图;
图4是本申请另一实施例提供的识别口语冗余成分的方法的流程图;
图5是本申请另一实施例提供的识别口语冗余成分的方法的流程图;
图6是本申请实施例提供的识别口语冗余成分的装置的结构图;
图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明作进一步说明。
在口语对话场景中,因为每个人的生活习惯、地域、性格以及普通话水平都不同的,每个人的口语几乎都不一样。口语对话内容在经过ASR转译之后,文本往往带有很多冗余成分。一些典型的冗余成分例如:″呃″″嗯″等语气词或叹词、″那个″″嗯呢″等无实义的指代词、标点符号、″我我我″等重复成分。
显然,这些冗余成分内容影响机器的后续自然语言理解。目前进行识别时,不能有效地准确地界定冗余成分,例如:”急急忙忙″是一个整体,不是重复字符。因为界定的不准确反而会识别出语句中有效成分。
另外,很多冗余成分在具体场景中有相应的意义,例如:″哎,你这人怎么这样″中”哎″承担了情绪表达,在特定场合有其具体意义,不该直接被识别。目前无法做到动态判断,这样也就会使得识别结果准确率下降。
为解决上述问题,准确识别冗余成分,能够灵活处理不同领域的冗余成分识别任务。本发明提供了一种识别口语冗余成分的方法、装置、电子设备及计算机可读存储介质,通过对口语冗余成分进行分类,以及训练多余成分识别模型和重复成分识别模型,有效提高口语冗余成分识别的准确度。本发明可以通过相应的软件、硬件或软硬结合的方式实现,以下对本发明实施例作详细介绍。
请参阅图1,本申请实施例提供一种识别口语冗余成分的方法,该方法可以由电子设备执行,该方法包括如下步骤:
步骤S100,接收口语语料库和训练语料。
本实施例中,以口语语料库为基础,使得后续多余成分、重复成分有依据。通过训练语料训练获得后续的识别模型。
步骤S101,将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分。
本实施例中,根据语言学规则,对大规模的口语语料库分析,对冗余现象分类为成分多余和成分重复两种情况,即:将口语语料库中的口语冗余成分分类为多余成分和重复成分。
步骤S102,根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型。
本实施例中,针对成分多余的情况,有一般的多余成分(例如:语气词、标点符号等),也有基于具体场景而判定是否多余的成分(例如:“哎,你这人怎么这样”中“哎”承担了情绪表达,就不是多余成分)。因此,要准确无误地进行识别冗余成分,如图2所示,本申请具体采用了如下步骤:
步骤S1021,汇总所述多余成分中的常规多余成分,获得通用词典。
本实施例中,先建立冗余成分候选词典。冗余成分候选词典对典型冗余类型进行分类存储,分为通用词典(语气词和叹词、标点符号、指代成分等分类存储)、自定义词典两部分。
通用词典即是上述获得的多余成分中常规多余成分的集合。即:可以甄别出典型的常规多余成分,为通用词典。也可以所有分类出来的多余成分都作为常规多余成分。通用词典的成员常常是语句中的多余成分,但并不一定是多余的。比如“我是张三哎”这个句子中,“哎”不影响语义,是多余成分,可以去掉。但在句子“哎,你这人怎么这样”中,“哎”承担了情绪表达,需要视具体情况而定是否多余。通用词典用于标识多余成分而非规则识别。
步骤S1022,汇总与预设场景相关的多余成分,获得自定义词典。
本实施例中,自定义词典是基于具体处理场景而组织的词典,里面的词可以根据场景进行填充。由于自然语言表达极其丰富,通用词典可以总结归纳常见类型,但无法覆盖所有多余成分,语言符号的语义在具体场景中会发生变化,需要通用+自定义的模式进行处理。自定义词典起到的作用是灵活处理场景相关问题。同样自定义词典用于标识多余成分而非直接规则识别。在完成步骤S1022后,若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。
步骤S1023,利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注。
本实施例中,结合上述情况:因为自然语言表达极其丰富,通用词典无法覆盖所有多余成分,语言符号的语义在具体场景中会发生变化,需要通用+自定义的模式进行处理。在利用通用词典和自定义词典可以标识多余成分的基础上,将训练语料中对应多余成分用特殊符号标识出来,结合场景需求识别真正需要识别的内容。具体采用如下步骤实现步骤S1023。
1)根据通用词典,标识所述训练语料中的常规多余成分为第一符号。
2)根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号。
3)根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
本实施例中,第一预设规则根据实际需要进行设计设定,机器执行,用于标注出真正需要标注的多余成分。例如:第一预设规则可以只对第一符号对应的多余成分进行标注,也可以是只对第二符号对应的多余成分进行标注,也可以是只对第一符号对应的前6个多余成分进行标注和第二符号对应的后3个多余成分进行标注。等等。
步骤S1024,使用标注后的训练语料进行训练,获得多余成分识别模型。
本实施例中,采用机器学习的方法训练模型,多余成分识别模型输入的是一串文本,输出会标识出要被识别的成分。
步骤S103,根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型。如图3:
本实施例中,针对语句成分重复的情况,有也可能有不同情况。有些叠词或者成语本身是一个整体,不是重复成分,所以不能被识别,需要进行一定筛选。例如:“急急忙忙”、“急匆匆”这样AABB型词、ABB型词是一个整体,具有特定的语义,不属于重复字符。因此,要准确无误地进行识别冗余成分,本申请具体采用了如下步骤:
步骤S1031,根据所述重复成分,对训练语料中需要识别的重复成分进行标注。
本实施例中,基于上述的有可能出现AABB型词、ABB型词的情况,需要首先进行分词操作,避免整体有语义的词沦为重复成分。具体采用如下步骤实现步骤S1031。
1)对训练语料进行分词,获得分词结果。分词后,类似AABB型词、ABB型词就不会被划定为重复成分。
2)根据所述分词结果,标识所述训练语料中的重复成分为第三符号。
将上述的类似AABB型词、ABB型词不再当成重复成分。
3)根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。
本实施例中,第二预设规则根据实际需要进行设计设定,机器执行,用于标注出真正需要标注的重复成分。例如:第二预设规则可以对第三符号对应的所有重复成分进行标注,也可以对第三符号对应的前7个重复成分进行标注。又例如:有些重复内容比如“你你你是谁”的三个“你”需要标注,又有些重复内容如“我再合计合计”,虽然“合计合计”也是重复内容,但不需要标注,因为不是冗余的。这就需要将第二预设规则按上述要求设计的复杂些。
步骤S1032,使用标注后的训练语料进行训练,获得重复成分识别模型。
本实施例中,采用机器学习的方法训练模型,重复成分识别模型输入的是一串文本,输出会标识出要被识别的冗余成分。
步骤S104,利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。
本实施例中,先将口语文本输入多余成分识别模型,获得标识有多余成分的口语文本;再将口语文本输入重复成分识别模型,获得标识有重复成分的口语文本;最后整合标识有多余成分的口语文本和标识有重复成分的口语文本,获得标识有冗余成分的口语文本。
通过步骤S101-104,将对冗余成分分类为多余成分和重复成分,采用规则(词典)+机器学习的方法对任务进行处理,尽量避免规则过于简单粗暴而造成误识别的情况,对丰富多样的自然语言有很好的适应性。从而能够准确有效地识别口语对话文本的冗余成分,方便后续分析。
另外,为了优化识别效果,以及验证识别结果是否准确,本申请额外设计了识别结果验证以及人工审核优化环节。即:另一实施例中,如图4,在上述步骤S101-104的基础上,本申请的识别口语冗余成分的方法,还包括:
步骤S105,利用语言模型判断剔除口语冗余成分的口语文本的结构是否成立,在不成立时修正识别结果。具体地,
1)将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;
语言模型的概率计算公式如下:
P(S)=P(W1,W2,...,Wk)=p(W1)P(W2|W1)...P(Wk|W1,W2,...,Wk-1)。
其中,s是句子,w是句子中的词,整句的概率是每一个词基于前面部分的词的条件概率的乘积,这也是语言模型训练的学习逻辑。
2)根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度。困惑度表征文本通顺程度。
困惑度的公式如下:
基于文本的概率,句子概率越大,迷惑度越小,一般困惑度20以下的语言模型比较好,困惑度大于100可能不太好,但这个也要看训练数据的复杂程度决定。可以设定预设闻值。
3)在困惑度超出预设闻值时,修正识别结果(标识的口语冗余成分)。可以人工审核识别结果,在识别结果错误时,人工标注修正,并将正确标注数据加入训练语料中。
本实施例中,将经过步骤S101-104处理后的口文本放到语言模型中,判断文本结构成立的可能性。如果可能性很低,需要人工介入对机器处理结果(识别结果)进行审查。如果机器处理结果确实有错误,可以由人工对结果进行标注修正后输出,同时正确标注数据可以加入训练语料中进行优化。如此,不仅可以验证结果成立可能性,也可以实现人工审核优化整个流程。
在一实施例中,本申请要对两个口语文本进行识别冗余成分,该两个口语文本分别为″啊你你你说什么啊?″和″那个呃那我再合计合计″。本申请提供一种识别口语冗余成分的方法,如图5所示,具体包括如下步骤:
步骤S200,接收口语语料库和训练语料。
步骤S201,将口语语料库中的冗余成分进行分类,获得多余成分和重复成分。
步骤S202,汇总所述多余成分中的常规多余成分,获得通用词典。
本实施例中,通用词典即是上述获得的多余成分中常规多余成分的集合。通用词典的成员常常是语句中的多余成分,但并不一定是多余的。通用词典用于标识多余成分而非规则识别。
步骤S203,汇总与预设场景相关的多余成分,获得自定义词典。
本实施例中,自定义词典是基于具体处理场景而组织的词典,里面的词可以根据场景进行填充。同样自定义词典用于标识多余成分而非直接规则识别。具体地,根据场景相关语句,对各场景填充多余成分。建立多余成分集合的自定义词典。
步骤S204,利用通用词典和自定义词典对训练语料中需要识别的多余成分进行标注。
本实施例中,在利用通用词典和自定义词典可以标识多余成分的基础上,将训练语料中对应多余成分用特殊符号标识出来,结合场景需求识别真正需要识别的内容。具体地,根据通用词典,标识所述训练语料中的常规多余成分为第一符号。根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号。根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
步骤S205,用步骤S204中标注的训练语料训练并得到多余成分识别模型。
步骤S206,根据所述重复成分,对训练语料中需要识别的重复成分进行标注。
本实施例中,基于有可能出现AABB型词、ABB型词的情况,需要首先进行分词操作,避免整体有语义的词沦为重复成分。具体地,对训练语料进行分词,获得分词结果;根据所述分词结果,标识所述训练语料中的重复成分为第三符号。根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。
步骤S207,用步骤S206中标注的训练语料训练并得到重复成分识别模型。
本实施例中,采用机器学习的方法训练模型,重复成分识别模型输入的是一串文本,输出会标识出要被识别的成分。
步骤S208,输入口语文本″啊你你你说什么啊?”和″那个呃那我再合计合计″,利用多余成分识别模型和重复成分识别模型识别口语冗余成分。
本实施例中,针对口语文本″啊你你你说什么啊?″,该口语文本先进入多余成分识别模型后输出,两个“啊”字会被标识出来。再进入重复成分识别模型后输出,“你你你”会别识别出来。综合两个模型的结果,去掉标识的口语冗余成分,最后得到语句成为“你说什么?”。
针对口语文本“那个呃那我再合计合计”,该口语文本先进入多余成分识别模型后输出,“那个”和“呃”会被标识出来。再进入重复成分识别模型后输出,无结果。综合两个模型的结果,去掉标识的口语冗余成分,最后得到语句成为“那我再合计合计”。
如此,准确识别了冗余成分。
步骤S209,由语言模型判断“你说什么?”和“那我再合计合计”的结构成立,说明识别结果正确。无需修正识别结果。
下述为本申请装置实施例,可以用于执行上述文档解析方法实施例。对于本申请装置实施例中未披露的细节,请参照上述的文档解析方法实施例。
请参阅图6,本发明提供一种识别口语冗余成分的装置,包括:接收模块300、冗余现象分类模块301、多余成分识别模型训练模块302、重复成分识别模型训练模块303、口语冗余成分识别模块304、口语文本结构判断模块305。
接收模块300,接收口语语料库和训练语料。
冗余现象分类模块301,将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分。
多余成分识别模型训练模块302,根据预设场景以及所述多余成分,对所述训练语料进行训|练,获得多余成分识别模型。
本实施例中,多余成分识别模型训练模块302进一步包括各子模块:
通用词典模块,汇总所述多余成分中的常规多余成分,获得通用词典。
自定义词典模块,汇总与预设场景相关的多余成分,获得自定义词典。
第一标注模块,利用通用词典和自定义词典对训练语料中需要识别的多余成分进行标注。即:根据通用词典,标识所述训练语料中的常规多余成分为第一符号;根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号。根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
多余成分识别模型模块,使用标注后的训练语料进行训练,获得多余成分识别模型。
重复成分识别模型训练模块303,根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型。
本实施例中,重复成分识别模型训练模块303进一步包括如下子模块:
第二标注模块,根据所述重复成分,对训练语料中需要识别的冗余内容进行标注。即:对训练语料进行分词,获得分词结果;根据所述分词结果,标识所述训练语料中的重复成分为第三符号;根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。
重复成分识别模型模块,使用标注后的训练语料进行训练,获得重复成分识别模型。
口语冗余成分识别模块304,利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。
口语文本结构判断模块305,将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;在所述困惑度超出预设闻值时,修正识别结果。
请参阅图7,本发明提供一种电子设备,该电子设备400包括处理器401,以及用于存储处理器401可执行指令的存储器402。其中,处理器401被配置为执行上述任一实施例中的识别口语冗余成分的方法。
处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetwordProcessor,NP)等;也可以是处理信号器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。
存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable Read-Only Memory,PROM),只读存储器(Read-only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。存储器402中还存储有一个或多个模块,分别借由该一个或多个处理器401执行,以完成上述一实施例中的识别口语冗余成分的方法步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器401执行以完成上述任一实施例中的识别口语冗余成分的方法。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并列地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本社蜗牛产能各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储其(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (9)

1.一种识别口语冗余成分的方法,其特征在于,包括:
接收口语语料库和训练语料;
将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本;
所述根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型,包括:
汇总所述多余成分中的常规多余成分,获得通用词典;
汇总与预设场景相关的多余成分,获得自定义词典;
利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注;
使用标注后的训练语料进行训练,获得多余成分识别模型。
2.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注,包括:
根据通用词典,标识所述训练语料中的常规多余成分为第一符号;
根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号;
根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
3.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述多余成分包括:语气词、叹词、标点符号和指代成分。
4.根据权利要求1或2所述的识别口语冗余成分的方法,其特征在于,所述汇总与预设场景相关的多余成分,获得自定义词典之后,还包括:
若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。
5.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型,包括:
根据所述重复成分,对训练语料中需要识别的重复成分进行标注;
使用标注后的训练语料进行训练,获得重复成分识别模型。
6.根据权利要求5所述的识别口语冗余成分的方法,其特征在于,所述根据重复成分,对训练语料中需要识别的重复成分进行标注,包括:
对训练语料进行分词,获得分词结果;
根据所述分词结果,标识所述训练语料中的重复成分为第三符号;
根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。
7.根据权利要求1、2、5、6中任一所述的识别口语冗余成分的方法,其特征在于,所述利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有口语冗余成分的口语文本,包括:
将口语文本输入多余成分识别模型,获得标识有多余成分的口语文本;
将口语文本输入重复成分识别模型,获得标识有重复成分的口语文本;
整合标识有多余成分的口语文本和标识有重复成分的口语文本,获得标识有冗余成分的口语文本。
8.根据权利要求1或5所述的识别口语冗余成分的方法,其特征在于,所述方法还包括:
将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;
根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;
在所述困惑度超出预设阈值时,修正识别结果;
其中,所述困惑度表征文本通顺程度。
9.一种识别口语冗余成分的装置,其特征在于,包括:
接收模块,接收口语语料库和训练语料;
冗余现象分类模块,将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
多余成分识别模型训练模块,根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
重复成分识别模型训练模块,根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
口语冗余成分识别模块,利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本;
口语文本结构判断模块,将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;在所述困惑度超出预设阈值时,修正识别结果;
多余成分识别模型训练模块包括:
通用词典模块,汇总所述多余成分中的常规多余成分,获得通用词典;
自定义词典模块,汇总与预设场景相关的多余成分,获得自定义词典;
第一标注模块,利用通用词典和自定义词典对训练语料中需要识别的多余成分进行标注;
多余成分识别模型模块,使用标注后的训练语料进行训练,获得多余成分识别模型。
CN202110727309.0A 2021-06-29 2021-06-29 一种识别口语冗余成分的方法及装置 Active CN113468305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110727309.0A CN113468305B (zh) 2021-06-29 2021-06-29 一种识别口语冗余成分的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110727309.0A CN113468305B (zh) 2021-06-29 2021-06-29 一种识别口语冗余成分的方法及装置

Publications (2)

Publication Number Publication Date
CN113468305A CN113468305A (zh) 2021-10-01
CN113468305B true CN113468305B (zh) 2023-04-28

Family

ID=77873780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110727309.0A Active CN113468305B (zh) 2021-06-29 2021-06-29 一种识别口语冗余成分的方法及装置

Country Status (1)

Country Link
CN (1) CN113468305B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5678774B2 (ja) * 2011-03-31 2015-03-04 国立大学法人鳥取大学 テキストデータの冗長性を解析する情報解析装置
JP2014048443A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、音声合成方法及び音声合成プログラム
JP6637332B2 (ja) * 2015-08-24 2020-01-29 日本放送協会 音声言語コーパス生成装置およびそのプログラム
CN106503231B (zh) * 2016-10-31 2020-02-04 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN109190110B (zh) * 2018-08-02 2023-08-22 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备
CN110807312A (zh) * 2019-10-10 2020-02-18 南京摄星智能科技有限公司 一种基于神经网络模型和规则结合的冗余表达去除方法
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN111191450B (zh) * 2019-12-27 2023-12-01 深圳市优必选科技股份有限公司 语料清洗方法、语料录入设备及计算机可读存储介质
CN112733554B (zh) * 2020-12-23 2021-09-07 深圳市爱科云通科技有限公司 口语文本处理方法、装置、服务器及可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置

Also Published As

Publication number Publication date
CN113468305A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
WO2020224119A1 (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110008472B (zh) 一种实体抽取的方法、装置、设备和计算机可读存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
EP3029607A1 (en) Method for text recognition and computer program product
WO2022105235A1 (zh) 一种信息识别方法、装置及存储介质
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN111192570B (zh) 语言模型训练方法、系统、移动终端及存储介质
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN111401012B (zh) 文本纠错方法、电子设备及计算机可读存储介质
Chua et al. Text normalization infrastructure that scales to hundreds of language varieties
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN113468305B (zh) 一种识别口语冗余成分的方法及装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
Hladek et al. Unsupervised spelling correction for Slovak
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
US11934779B2 (en) Information processing device, information processing method, and program
CN109710927B (zh) 命名实体的识别方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant