CN110444198B - 检索方法、装置、计算机设备和存储介质 - Google Patents

检索方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110444198B
CN110444198B CN201910594101.9A CN201910594101A CN110444198B CN 110444198 B CN110444198 B CN 110444198B CN 201910594101 A CN201910594101 A CN 201910594101A CN 110444198 B CN110444198 B CN 110444198B
Authority
CN
China
Prior art keywords
model
text
voice
score
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910594101.9A
Other languages
English (en)
Other versions
CN110444198A (zh
Inventor
王建华
马琳
张晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910594101.9A priority Critical patent/CN110444198B/zh
Publication of CN110444198A publication Critical patent/CN110444198A/zh
Priority to PCT/CN2019/118254 priority patent/WO2021000497A1/zh
Application granted granted Critical
Publication of CN110444198B publication Critical patent/CN110444198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及大数据领域,提供了一种检索方法、装置、计算机设备和存储介质。方法包括:通过将用户口语化的语音作为待识别语音进行语音识别,得到识别文本,再通过语义分析模型、情感分析模型和文本分类模型对所述识别文本进行自然语言处理,得到用于进行检索的关键信息,最后再根据关键信息得到目标检索内容。通过用语音输入代替传统的关键字输入,节省用户输入的时间,通过自然语言处理能够保证关键信息的准确性和全面性,再根据关键信息进行自动检索,准确地检索出对应的目标检索内容,提高信息检索的工作效率。

Description

检索方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种检索方法、装置、计算机设备和存储介质。
背景技术
随机计算机技术和互联网系统的飞速发展,衍生出各个行业各个岗位多种用途的应用系统,目前,应用系统中涉及到信息检索时,传统的检索方式均需要用户选择,手动填写关键词以此来检索出相对应的内容。但随着当前互联网用户的群体数量以及日常工作中所需要的业务场景复杂度,数据时效性,数据量庞大性的不断增加,传统检索方式的检索工作量也随之增加,传统的信息检索模式将大大拖慢工作效率。
发明内容
基于此,有必要针对应用系统中传统的信息检索模式工作效率低的技术问题,提供一种检索方法、装置、计算机设备和存储介质,用于提高应用系统中信息检索的效率。
一种检索方法,所述方法包括:
获取待识别语音;
将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本;
将所述识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据;其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果;
对所述识别文本进行词语预处理后,得到目标文本;其中,所述词语预处理包括分词、去除停留词、词语过滤;
将所述第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息;
根据所述关键信息进行检索得到目标检索内容。
在一个实施例中,所述语音识别模型包括声学模型和语言模型,所述将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本的步骤,包括:
对所述待识别语音的音频信号进行信号处理和特征提取,得到特征序列;
将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分;
对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。
在一个实施例中,所述对所述声学模型得分和所述语音模型得分进行解码搜索,得到识别文本的步骤,包括:
获取预设假设词序列;
根据所述特征序列中的特征向量计算所述预设假设词序列的所述声学模型得分,得到声学模型得分组;
根据所述特征序列中的特征向量计算所述预设假设词序列的所述语言模型得分,得到语言模型得分组;
根据所述声学模型得分组和语言模型得分组,计算所述预设假设词序列中假设词的总体得分,将所述总体得分最高的假设词作为所述识别文本。
在一个实施例中,待训练模型包括所述语义分析模型、所述情感分析模型和所述文本分类模型,所述待训练模型的训练步骤,包括:
获取训练样本集,所述训练样本集包括粒度数据样本、语言数据样本和模态数据样本,所述粒度数据样本包括粒度数据特征、语言数据特征、模态数据特征;
获取待训练文本,将待训练文本输入初始待训练模型,得到初始文本;
根据所述初始文本、所述粒度数据特征、所述语言数据特征、所述模态数据特征对所述初始待训练模型进行参数调整,直到满足收敛条件,得到所述语义分析模型、所述情感分析模型、所述文本分类模型。
在一个实施例中,所述语音识别模型包括声学模型和语言模型,所述语音识别模型的训练步骤包括:
获取训练样本,所述训练样本包括语言特征和声学特征;
获取待识别训练语音,将待识别训练语音输入初始语言模型,得到初始语言得分;
获取待识别训练语音,将待识别训练语音输入初始声学模型,得到初始声学得分;
根据所述语言特征、所述初始语言得分对所述初始语言模型进行参数调整,根据所述声学特征、所述初始声学得分对所述初始声学模型进行参数调整,直到所述初始语言模型和所述初始声学模型都满足收敛条件,得到所述语音识别模型。
一种检索装置,所述装置包括
语音获取模块,用于获取待识别语音;
语音识别模块,用于将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本;
关键信息确认模块,用于将所述识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果;还用于对所述识别文本进行词语预处理后,得到目标文本,其中,所述词语预处理包括分词、去除停留词、词语过滤;还用于将所述第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息;
检索模块,用于根据所述关键信息进行检索得到目标检索内容。
在一个实施例中,所述语音识别模型包括声学模型和语言模型,所述语音识别模块包括:
特征序列提取单元,用于对所述语音数据的音频信号进行信号处理和特征提取,得到特征序列;
得分确认单元,用于将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分;
识别文本获取单元,对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。
在一个实施例中,所述识别文本获取单元包括:
预设假设词序列获取单元,用于获取预设假设词序列;
得分计算单元,用于根据所述特征序列中的特征向量计算所述预设假设词序列的所述声学模型得分,得到声学模型得分组,还用于根据所述特征序列中的特征向量计算所述预设假设词序列的所述语言模型得分,得到语言模型得分组;
识别文本确认单元,用于根据所述声学模型得分组和语言模型得分组,计算所述预设假设词序列中假设词的总体得分,将所述总体得分最高的假设词作为所述识别文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述检索方法、装置、计算机设备和存储介质,通过将用户口语化的语音作为待识别语音进行语音识别,得到识别文本,再通过语义分析模型、情感分析模型和文本分类模型对所述识别文本进行自然语言处理,得到用于进行检索的关键信息,最后再根据关键信息得到目标检索内容。通过用语音输入代替传统的关键字输入,节省用户输入的时间,通过自然语言处理能够保证关键信息的准确性和全面性,再根据关键信息进行自动检索,准确地检索出对应的目标检索内容,提高信息检索的工作效率。
附图说明
图1为一个实施例检索方法的应用场景图;
图2为一个实施例中检索方法的流程示意图;
图3为一个实施例中语音识别的流程示意图;
图4为另一个实施例中语音识别的流程示意图;
图5为一个实施例中待训练模型的训练步骤的流程示意图;
图6为一个实施例中语音识别模型的训练步骤的流程示意图;
图7为一个实施例中检索装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的检索方法,可以应用于如图1所示的应用环境中。图1为一个实施例中检索方法运行的应用环境图。如图1所示,该应用环境包括终端110和服务器120,终端110和服务器120之间通过网络进行通信,通信网络可以是无线或者有线通信网络,例如IP网络、蜂窝移动通信网络等,其中终端和服务器的个数不限。
其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。通过终端110获取待识别语音,终端110将待识别语音输入已训练的语音识别模型中进行识别,得到识别文本,终端110将识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,终端110对识别文本进行词语预处理后,得到目标文本,将所述第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息,终端110根据所述关键信息进行检索得到目标检索内容。
在一个实施例中,上述在终端110上对语音进行处理,最后得到目标检索内容的步骤,同样可以在服务器120上进行。具体地,终端110获取待识别语音后,将待识别语音发送至服务器120,在服务器120上对待识别语音进行处理得到目标检索内容,服务器120再将目标检索内容返回至终端。
在一个实施例中,如图2所示,提供了一种检索方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤210,获取待识别语音。
具体地,终端录入用户语音,并将用户语音作为待识别语音。待识别语音是用户较为口语化表达的语音数据,语音数据用于用户在使用企业应用系统时涉及检索时,解放双手实现人机交互,并自动检索出想要检索出的内容。其中,触发终端录入用户语音的操作可以是用户触发的,比如点击终端上的控件,也可以是终端自动检测,比如检测到人的声音自动录入。其中,企业应用系统可以是指运行在企业内的单纯的软件系统,也可以是由标准化的管理模式、知识化的业务模型以及集成化的软件系统三个层次构成的应用系统,比如OA协同办公系统、平安CSTS系统,指尖办公系统等。
步骤220,将待识别语音输入已训练的语音识别模型中进行识别,得到识别文本。
具体地,终端将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本。语音识别模型主要是将语音转换成文字的处理,识别出语音中的文字内容,得到识别文本的语音识别算法。
步骤230,将识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据;其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果。
具体地,终端将所述识别文本输入已训练的语义分析模型中,得到第一特征数据。语义分析模型是根据识别文本中的上下文词语建立任务对识别文本的内容进行分析和处理的语义分析算法,第一特征数据是指对识别文本进行语义分析的分析结果。在不同的语义情景下,相同的词语往往代表着不同的词义,因此需要结合每个词语上下文相邻的词语的含义,对该词进行判断和分析,分析符合该语义情景下的该词的词义。其中,对于不同的语言单位,语义分析的任务各不相同。在词的层次上,语义分析的基本任务是进行词义消歧(WSD),在句子层面上是语义角色标注(SRL),在篇章层面上是指代消歧,也称共指消解。
具体地,终端将所述识别文本输入已训练的情感分析模型中,得到第二特征数据。其中,情感分析模型是指根据识别文本分析判断文本的情感色彩或褒贬态度的情感分析算法。情感分析也称倾向性分析,即对一个主观的文本分析判断说话者的情感色彩或者褒贬态度,第二特征数据是指对识别文本进行情感分析的分析结果。
步骤240,对识别文本进行词语预处理后,得到目标文本,其中,所述词语预处理包括分词、去除停留词、词语过滤。
具体地,终端对所述识别文本进行词语预处理后,得到目标文本。其中,词语预处理是指对识别文本的一个初步处理的过程,经过词语预处理得到目标文本,目标文本在后续处理的时候更加准确。在一个实施例中,词语预处理可以是对识别文本进行分词处理、去除停留词处理、词语过滤,分词处理是指对识别文本进行词语的切分,去除停用词指的是指将识别文本中没有任何意思的词语,比如去掉“的、吗、呢”等没有特殊含义的词语。词语过滤处理是一种管理识别文本中关键词的一种方式,用于过滤不良信息。
步骤250,将第一特征数据、第二特征数据、目标文本输入文本分类模型中,文本分类模型根据第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据第一逻辑规则对目标文本进行分类处理,得到关键信息。
具体地,终端将第一特征数据、第二特征数据、目标文本输入文本分类模型中。其中,文本分类模型是指根据第一数据和第二特征数据对目标文本进行分类的算法。文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息。即通过语义分析结果和情感分析结果,对目标文本进行分类提取,得到用于检索的关键信息。
步骤260,根据关键信息进行检索得到目标检索内容。
具体地,终端根据关键信息进行检索得到目标检索内容。在一个实施例中,在企业互联网应用系统的现有检索功能中引入语音识别和自然语言处理(NLP)技术,录入用户的语音,进行语音识别和自然语言处理后根据最后得到的关键信息自动完成搜索,避免人工频繁的复杂信息检索,极大的提高检索的效率。
其中,NLP(Natural Language Processing)是人工智能(AI)的一个子领域,在整个人工智能体系下的作用。自然语言处理就是体现语言智能重要的技术,它是人工智能一个重要的分支,帮助分析、理解或者生成自然语言,实现人与机器的自然交流,同时也帮助人与人之间的交流。
其中,录入的用户语音是指任意类型的语音,根据用户的任意类型的语音检索出用户最可能需要的一系列信息,提高了检索的准确率,语音的类型包括标准化用语和口语化用语。在一个实施例中,比如,录入的语音可以是用户使用标准化用语说一段语音:“请查一下2018年第四季度营业额”,也可以是用户使用口语化的表达方式说一段语音:“本季度挣了多少钱?”,无论是标准化用户还是口语化用语的语音,都能对其进行语音识别和自然语言处理,通过文本分类模型匹配和分类得到关键信息是“营业额以及本季度的时间”,并根据关键信息自动进行检索,最后得到的用户需要的目标检索内容,比如“每个季度具体的营业收入以及营业收入来源等”。
在本实施例中,通过获取待识别语音,将待识别语音输入已训练的语音识别模型中进行识别,得到识别文本,将识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,对识别文本进行词语预处理后,得到目标文本,将第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,并根据第一逻辑规则对所述目标文本进行分类处理,得到关键信息,再根据所述关键信息进行检索得到目标检索内容。通过将用户口语化的语音作为待识别语音进行语音识别,得到识别文本,再通过语义分析模型、情感分析模型和文本分类模型对所述识别文本进行自然语言处理,得到用于进行检索的关键信息,最后再根据关键信息得到目标检索内容。通过用语音输入代替传统的关键字输入,节省用户输入的时间,通过自然语言处理能够保证关键信息的准确性和全面性,再根据关键信息进行自动检索,准确地检索出对应的目标检索内容,提高信息检索的工作效率。
在一个实施例中,所述语音识别模型包括声学模型和语言模型,如图3所示,步骤220包括:
步骤221,对所述待识别语音的音频信号进行信号处理和特征提取,得到特征序列。
步骤222,将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分。
步骤223,对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。
具体地,终端对待识别语音的音频信号进行信号处理和特征提取,得到特征序列。其中,可以理解的是不同的语音的音频信号是有区别的,音频信号具有特征参数,比如频率、周期、能量等,因此对语音的音频信号进行信号处理和特征提取,能够得到特征序列。特征序列包含多个所述待识别语音的语音特征。
具体地,终端将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分。其中,语言模型得分是指用于评估语言模型的好坏,用于语音识别的识别结果分析。声学模型得分是指将声学和发音学的制式进行整合,根据输入的特征序列,生成的声学模型得分。
具体地,终端对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。其中,解码搜索是指根据特征序列以及特征序列的得分,匹配预设词,得到识别文本的过程。
在本实施例中,通过对将待识别语音进行信号处理和特征提取,得到特征序列,得到声学模型得分和语言模型得分后再通过解码搜索得到识别文本,实现语音到文字的准确转换。
在一个实施例中,如图4所示,步骤223还包括:
步骤223A,获取预设假设词序列。
步骤223B,根据所述特征序列中的特征向量计算所述预设假设词序列的所述声学模型得分,得到声学模型得分组。
步骤223C,根据所述特征序列中的特征向量计算所述预设假设词序列的所述语言模型得分,得到语言模型得分组。
步骤223D,根据所述声学模型得分组和语言模型得分组,计算所述预设假设词序列中假设词的总体得分,将所述总体得分最高的假设词作为所述识别文本。
具体地,终端获取预设假设词序列,预设假设词序列是预先设置的若干假设词。目标声学模型得分组是指假设词序列中的假设词与特征序列中的特征向量进行对比计算,得到的假设词的声学得分集合。目标语言模型得分组是指假设词序列中的假设词与特征序列中的特征向量进行对比计算,得到的假设词的语言得分集合。并根据声学得分集合和语言得分集合计算所述预设假设词序列中每一个假设词的声学得分总体得分,并选择总体得分最高的假设词作为识别文本。
在一个实施例中,待训练模型包括所述语义分析模型、所述情感分析模型和所述文本分类模型,如图5示,方法还包括:
步骤310,获取训练样本集,所述训练样本集包括粒度数据样本、语言数据样本和模态数据样本,所述粒度数据样本包括粒度数据特征、语言数据特征、模态数据特征。
步骤320,获取待训练文本,将待训练文本输入初始待训练模型,得到初始文本。
步骤330,根据初始文本、粒度数据特征、语言数据特征和模态数据特征对初始待训练模型进行参数调整,直到满足收敛条件,得到所述语义分析模型、所述情感分析模型、所述文本分类模型。
其中,训练样本集是指用于训练语义分析模型、情感分析模型和文本分类模型的大数据样本,大数据样本可以通过爬虫或购买得到。训练样本集包括粒度数据样本、语言数据样本和模态数据样本。粒度数据样本是详细全面的多粒度单语数据。多语言数据是代表不同语言的信息数据,比如中文英文、韩语、日语、不同地区方言等。多模态数据是表示同一个事物的多种表现形态的数据,类似于人类感知学习的信息形式、站在机器的角度上说相当于不同传感器对同一事物的描述,比如说,相机、X光、红外线对同一个场景同一个目标照出的图片。
其中,待训练样本是用于训练的样本,待训练样本可以是人类的一句话,或者一篇小说,一篇论文,乃至大量的行业数据。通过不断训练调整初始待训练模型的参数,直到满足收敛条件,得到语义分析模型、情感分析模型和文本分类模型。
在一个实施例中,所述语音识别模型包括声学模型和语言模型,如图6示,方法还包括:
步骤341,获取训练样本,所述训练样本包括语言特征和声学特征。
步骤342,获取待识别训练语音,将待识别训练语音输入初始语言模型,得到初始语言得分。
步骤343,根据语言特征、初始语言得分对初始语言模型进行参数调整,根据声学特征、初始声学得分对初始声学模型进行参数调整,直到初始语言模型和初始声学模型都满足收敛条件,得到语音识别模型。
其中,训练样本是指用来语音训练的样本数据,训练样本包括语言特征和声学特征。语言特征是指用来区分不同的语言的特征,比如中文具有中文的特征,英文具有英文的特征等等,就像人耳能够根据不同国家语言的特色能够识别出不同的语言一样。声学特征是指将声学和发音学结合所得到的特征。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种检索方法装置,包括:语音获取模块510、语音识别模块520、关键信息确认模块530和检索模块540,其中:
语音获取模块510,用于获取待识别语音。
语音识别模块520,用于将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本。
关键信息确认模块530,用于将所述识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果;还用于对所述识别文本进行词语预处理后,得到目标文本,其中,所述词语预处理包括分词、去除停留词、词语过滤;还用于将所述第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息。
检索模块,用于根据所述关键信息进行检索得到目标检索内容。
在一个实施例中,所述语音识别模型包括声学模型和语言模型,语音识别模块520包括:
特征序列提取单元,用于对所述语音数据的音频信号进行信号处理和特征提取,得到特征序列。
得分确认单元,用于将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分。
识别文本获取单元,对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。
在一个实施例中,所述识别文本获取单元还包括:
预设假设词序列获取单元,用于获取预设假设词序列。
得分计算单元,用于根据所述特征序列中的特征向量计算所述预设假设词序列的所述声学模型得分,得到声学模型得分组,还用于根据所述特征序列中的特征向量计算所述预设假设词序列的所述语言模型得分,得到语言模型得分组。
识别文本确认单元,用于根据所述声学模型得分组和语言模型得分组,计算所述预设假设词序列中假设词的总体得分,将所述总体得分最高的假设词作为所述识别文本。
关于检索装置的具体限定可以参见上文中对于检索方法的限定,在此不再赘述。上述检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检索方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待识别语音,将待识别语音输入已训练的语音识别模型中进行识别,得到识别文本;将识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果。对识别文本进行词语预处理后,得到目标文本,其中,所述词语预处理包括分词、去除停留词、词语过滤。将第一特征数据、第二特征数据、目标文本输入文本分类模型中,文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据第一逻辑规则对目标文本进行分类处理,得到关键信息,根据关键信息进行检索得到目标检索内容。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别语音,将待识别语音输入已训练的语音识别模型中进行识别,得到识别文本;将识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果。对识别文本进行词语预处理后,得到目标文本,其中,所述词语预处理包括分词、去除停留词、词语过滤。将第一特征数据、第二特征数据、目标文本输入文本分类模型中,文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据第一逻辑规则对目标文本进行分类处理,得到关键信息,根据关键信息进行检索得到目标检索内容。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种检索方法,其特征在于,所述方法包括:
获取待识别语音;
将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本;
将所述识别文本输入已训练的语义分析模型中和情感分析模型中,分别得到第一特征数据和第二特征数据;其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果;
对所述识别文本进行词语预处理后,得到目标文本;其中,所述词语预处理包括分词、去除停留词、词语过滤;
将所述第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息;
根据所述关键信息进行检索得到目标检索内容。
2.根据权利要求1所述的方法,所述语音识别模型包括声学模型和语言模型,其特征在于,所述将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本的步骤,包括:
对所述待识别语音的音频信号进行信号处理和特征提取,得到特征序列;
将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分;
对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述声学模型得分和所述语音模型得分进行解码搜索,得到识别文本的步骤,包括:
获取预设假设词序列;
根据所述特征序列中的特征向量计算所述预设假设词序列的所述声学模型得分,得到声学模型得分组;
根据所述特征序列中的特征向量计算所述预设假设词序列的所述语言模型得分,得到语言模型得分组;
根据所述声学模型得分组和语言模型得分组,计算所述预设假设词序列中假设词的总体得分,将所述总体得分最高的假设词作为所述识别文本。
4.根据权利要求1所述的方法,待训练模型包括所述语义分析模型、所述情感分析模型和所述文本分类模型,其特征在于,所述待训练模型的训练步骤,包括:
获取训练样本集,所述训练样本集包括粒度数据样本、语言数据样本和模态数据样本,所述粒度数据样本包括粒度数据特征、语言数据特征、模态数据特征;
获取待训练文本,将待训练文本输入初始待训练模型,得到初始文本;
根据所述初始文本、所述粒度数据特征、所述语言数据特征、所述模态数据特征对所述初始待训练模型进行参数调整,直到满足收敛条件,得到所述语义分析模型、所述情感分析模型、所述文本分类模型。
5.根据权利要求1所述的方法,所述语音识别模型包括声学模型和语言模型,其特征在于,所述语音识别模型的训练步骤包括:
获取训练样本,所述训练样本包括语言特征和声学特征;
获取待识别训练语音,将待识别训练语音输入初始语言模型,得到初始语言得分;
获取待识别训练语音,将待识别训练语音输入初始声学模型,得到初始声学得分;
根据所述语言特征、所述初始语言得分对所述初始语言模型进行参数调整,根据所述声学特征、所述初始声学得分对所述初始声学模型进行参数调整,直到所述初始语言模型和所述初始声学模型都满足收敛条件,得到所述语音识别模型。
6.一种检索装置,其特征在于,所述装置包括:
语音获取模块,用于获取待识别语音;
语音识别模块,用于将所述待识别语音输入已训练的语音识别模型中进行识别,得到识别文本;
关键信息确认模块,用于将所述识别文本输入已训练的语义分析模型和情感分析模型中,分别得到第一特征数据和第二特征数据,其中,所述第一特征数据为对所述识别文本进行语义分析的分析结果;所述第二特征数据为对所述识别文本进行情感分析的分析结果;还用于对所述识别文本进行词语预处理后,得到目标文本;其中,所述词语预处理包括分词、去除停留词、词语过滤;还用于将所述第一特征数据、第二特征数据、目标文本输入文本分类模型中,所述文本分类模型根据所述第一特征数据和第二特征数据得到匹配成功的第一逻辑规则,根据所述第一逻辑规则对所述目标文本进行分类处理,得到关键信息;
检索模块,用于根据所述关键信息进行检索得到目标检索内容。
7.根据权利要求6所述的装置,所述语音识别模型包括声学模型和语言模型,其特征在于,所述语音识别模块包括:
特征序列提取单元,用于对所述语音数据的音频信号进行信号处理和特征提取,得到特征序列;
得分确认单元,用于将所述特征序列输入已训练的声学模型和已训练的语言模型中,分别得到声学模型得分和语言模型得分;
识别文本获取单元,对所述声学模型得分和所述语音模型得分进行解码搜索,得到所述识别文本。
8.根据权利要求7所述的装置,其特征在于,所述识别文本获取单元包括:
预设假设词序列获取单元,用于获取预设假设词序列;
得分计算单元,用于根据所述特征序列中的特征向量计算所述预设假设词序列的所述声学模型得分,得到声学模型得分组,还用于根据所述特征序列中的特征向量计算所述预设假设词序列的所述语言模型得分,得到语言模型得分组;
识别文本确认单元,用于根据所述声学模型得分组和语言模型得分组,计算所述预设假设词序列中假设词的总体得分,将所述总体得分最高的假设词作为所述识别文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN201910594101.9A 2019-07-03 2019-07-03 检索方法、装置、计算机设备和存储介质 Active CN110444198B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910594101.9A CN110444198B (zh) 2019-07-03 2019-07-03 检索方法、装置、计算机设备和存储介质
PCT/CN2019/118254 WO2021000497A1 (zh) 2019-07-03 2019-11-14 检索方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910594101.9A CN110444198B (zh) 2019-07-03 2019-07-03 检索方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110444198A CN110444198A (zh) 2019-11-12
CN110444198B true CN110444198B (zh) 2023-05-30

Family

ID=68428519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910594101.9A Active CN110444198B (zh) 2019-07-03 2019-07-03 检索方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110444198B (zh)
WO (1) WO2021000497A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444198B (zh) * 2019-07-03 2023-05-30 平安科技(深圳)有限公司 检索方法、装置、计算机设备和存储介质
CN110866410B (zh) * 2019-11-15 2023-07-25 深圳市赛为智能股份有限公司 多语言转换方法、装置、计算机设备及存储介质
CN112069796B (zh) * 2020-09-03 2023-08-04 阳光保险集团股份有限公司 一种语音质检方法、装置,电子设备及存储介质
CN112600834B (zh) * 2020-12-10 2023-03-24 同盾控股有限公司 内容安全识别方法及装置、存储介质和电子设备
CN112466278B (zh) * 2020-12-16 2022-02-18 北京百度网讯科技有限公司 语音识别方法、装置和电子设备
CN113314106A (zh) * 2021-05-19 2021-08-27 国网辽宁省电力有限公司 基于语音和意图识别的电力信息查询与调控功能调用方法
CN113593535A (zh) * 2021-06-30 2021-11-02 青岛海尔科技有限公司 语音数据的处理方法及装置、存储介质、电子装置
CN113724698B (zh) * 2021-09-01 2024-01-30 马上消费金融股份有限公司 语音识别模型的训练方法、装置、设备及存储介质
CN114547474A (zh) * 2022-04-21 2022-05-27 北京泰迪熊移动科技有限公司 一种数据搜索方法、系统、电子设备及存储介质
CN117540917A (zh) * 2023-11-14 2024-02-09 大能手教育科技(北京)有限公司 一种培训平台辅助培训方法、装置、设备以及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143329A (zh) * 2013-08-19 2014-11-12 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
CN105095406A (zh) * 2015-07-09 2015-11-25 百度在线网络技术(北京)有限公司 一种基于用户特征的语音搜索方法及装置
CN105260416A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种基于语音识别的搜索方法及装置
CN106095799A (zh) * 2016-05-30 2016-11-09 广州多益网络股份有限公司 一种语音的存储、检索方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275601A (ja) * 2004-03-23 2005-10-06 Fujitsu Ltd 音声による情報検索システム
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search
US8374865B1 (en) * 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
CN108961887A (zh) * 2018-07-24 2018-12-07 广东小天才科技有限公司 一种语音搜索控制方法及家教设备
CN110444198B (zh) * 2019-07-03 2023-05-30 平安科技(深圳)有限公司 检索方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143329A (zh) * 2013-08-19 2014-11-12 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
CN105095406A (zh) * 2015-07-09 2015-11-25 百度在线网络技术(北京)有限公司 一种基于用户特征的语音搜索方法及装置
CN105260416A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种基于语音识别的搜索方法及装置
CN106095799A (zh) * 2016-05-30 2016-11-09 广州多益网络股份有限公司 一种语音的存储、检索方法及装置

Also Published As

Publication number Publication date
WO2021000497A1 (zh) 2021-01-07
CN110444198A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN110472224B (zh) 服务质量的检测方法、装置、计算机设备和存储介质
CN110597952A (zh) 信息处理方法、服务器及计算机存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
US20230089308A1 (en) Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering
CN113192516A (zh) 语音角色分割方法、装置、计算机设备及存储介质
CN113343108B (zh) 推荐信息处理方法、装置、设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN114155860A (zh) 摘要记录方法、装置、计算机设备和存储介质
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN112735479B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN107424612A (zh) 处理方法、装置和机器可读介质
CN113223532A (zh) 客服通话的质检方法、装置、计算机设备及存储介质
CN110931002B (zh) 人机交互方法、装置、计算机设备和存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
US20170242845A1 (en) Conversational list management
CN116741155A (zh) 语音识别方法、语音识别模型的训练方法、装置及设备
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant