CN111583919B - 信息处理方法、装置及存储介质 - Google Patents

信息处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111583919B
CN111583919B CN202010293475.XA CN202010293475A CN111583919B CN 111583919 B CN111583919 B CN 111583919B CN 202010293475 A CN202010293475 A CN 202010293475A CN 111583919 B CN111583919 B CN 111583919B
Authority
CN
China
Prior art keywords
classification
features
current text
feature
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010293475.XA
Other languages
English (en)
Other versions
CN111583919A (zh
Inventor
谢巧菁
崔世起
吴泽伦
魏晨
秦斌
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010293475.XA priority Critical patent/CN111583919B/zh
Publication of CN111583919A publication Critical patent/CN111583919A/zh
Application granted granted Critical
Publication of CN111583919B publication Critical patent/CN111583919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种信息处理方法、装置及存储介质。该方法应用于电子设备,包括:获取当前语音,并得到当前语音对应的当前文本;基于语义分析模型所包含的特征提取部分对当前文本进行特征提取,获取当前文本的字面含义特征和上下文特征;利用语义分析模型所包含的分类部分对字面含义特征和上下文特征进行语义分类处理,得到分类结果;当分类结果表明当前语音为拒绝识别的语音时,拒绝识别当前语音。这样,通过同时对当前文本的字面含义特征和上下文特征进行分析处理,能够结合当前文本的上下文确定出当前文本的语言环境,进而精确地确定出当前文本所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率。

Description

信息处理方法、装置及存储介质
技术领域
本公开涉及计算机通信领域,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
在人机对话过程中,全双工主要是指为了达到流畅、自然以及拟人化对话体验而使用的技术手段。目前,全双工技术可以应用于语音交互中的“一次唤醒,连续对话”、“边听边说,随时打断”等各个应用场景,以使语音交互的过程更加流畅。
然而,在基于全双工技术进行语音交互时,还存在诸多技术挑战。由于电子设备接收到的语音请求量极大,且并不是所有接收到的语音请求都是用户真实想要表达的请求,这时,可能会存在误唤醒、对接收到无关的语音请求以及用户无意识的自言自语进行响应等误响应的情况。
发明内容
本公开提供一种信息处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种信息处理方法,应用于电子设备,包括:
获取当前语音,并得到所述当前语音对应的当前文本;
基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;
当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
可选的,所述方法还包括:
分别确定所述字面含义特征和所述上下文特征与所述当前文本的匹配度;
将所述字面含义特征和所述上下文特征与所述当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对所述字面含义特征的特征向量以及所述上下文特征的特征向量进行排序;
对排序后的所述字面含义特征的特征向量以及所述上下文特征的特征向量进行拼接处理,得到多个所述当前文本所对应的特征向量序列;
从所述特征向量序列中,选择出所述匹配度最高的特征向量,输入到所述分类部分。
可选的,所述基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征,包括:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述特征提取部分对所述当前文本的相邻文本提取的特征,作为上下文特征。
可选的,所述方法还包括:
基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
所述利用语义分析模型的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果,包括:
利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果。
可选的,所述利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果,包括:
对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据所对应的特征向量进行拼接处理,得到输入到所述语义分析模型的拼接特征向量;
利用语义分析模型所包含的分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
根据本公开实施例的第二方面,提供一种信息处理装置,应用于电子设备,包括:
获取模块,配置为获取当前语音,并得到所述当前语音对应的当前文本;
第一提取模块,配置为基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
分类模块,配置为利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;
拒识模块,配置为当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
可选的,所述装置还包括:
第一确定模块,配置为分别确定所述字面含义特征和所述上下文特征与所述当前文本的匹配度;
排序模块,配置为将所述字面含义特征和所述上下文特征与所述当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对所述字面含义特征的特征向量以及所述上下文特征的特征向量进行排序;
文本处理模块,配置为对排序后的所述字面含义特征的特征向量以及所述上下文特征的特征向量进行拼接处理,得到多个所述当前文本所对应的特征向量序列;
第二提取模块,配置为从所述特征向量序列中,选择出所述匹配度最高的特征向量,输入到所述分类部分。
可选的,所述第一提取模块,还配置为:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述特征提取部分对所述当前文本的相邻文本提取的特征,作为上下文特征。
可选的,所述装置还包括:
第二确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
所述分类模块,包括:
第一分类子模块,配置为利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果。
可选的,所述第一分类子模块,还配置为:
对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据所对应的特征向量进行拼接处理,得到输入到所述语义分析模型的拼接特征向量;
利用语义分析模型所包含的分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
根据本公开实施例的第三方面,提供一种信息处理装置,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述第一方面中的信息处理方法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述第一方面中的信息处理方法中的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开在人机交互前,可以根据获取的当前语音得到对应的当前文本,基于语义分析模型对从当前文本中提取的字面含义特征和上下文特征进行语义分类得到分类结果,并在分类结果表征当前语音为拒绝识别的语音时,拒绝识别当前语音。
本公开中的技术方案,第一方面,可以将语义分析模型所包含的特征提取部分和分类部分作为两个相互独立的部分,分别用于进行特征提取和分类,能够提高语义分析模型的的灵活性;第二方面,通过同时对当前文本的字面含义特征和上下文特征进行分析处理,相较于仅对当前文本的字面特征含义进行语义分析,能够结合当前文本的上下文确定出当前文本的语言环境,进而精确地确定出当前文本所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率;第三方面,不需要对拒绝识别的当前语音信息进行响应,不仅能够降低误响应的概率,还能够减少不必要的语义分析过程。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息处理方法的流程图。
图2A是根据一示例性实施例示出的另一种信息处理方法的流程图。
图2B是根据一示例性实施例示出的一种模型结构示意图。
图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图。
图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。
图5是根据一示例性实施例示出的信息处理装置框图。
图6是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种信息处理方法的流程图,如图1所示,该方法主要包括以下步骤:
在步骤101中,获取当前语音,并得到所述当前语音对应的当前文本;
在步骤102中,基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
在步骤103中,利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;
在步骤104中,当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
本公开实施例中的信息处理方法可以应用于电子设备,其中,电子设备包括移动终端和固定终端。这里,移动终端包括手机、笔记本电脑、平板电脑、可穿戴式电子设备、智能音箱等,固定终端包括个人计算机、电视等。
本公开实施例中,可以在电子设备上安装可以用于进行人机交互的应用程序,在使用的过程中,当该应用程序接收到用户输入的交互请求时,可以基于电子设备上的语音采集组件采集当前语音,其中,当前语音可以是用户输入的语音请求,用于进行人机交互的应用程序包括语音助手。
例如,以电子设备是智能音箱为例,可以基于智能音箱所包含的语音采集组件采集用户输入的当前语音,智能音箱所包含的处理器可以利用语义分析模型的特征提取部分对当前文本进行特征提取,获取当前文本的字面含义特征和上下文特征;利用语义分析模型的分类部分对字面含义特征和上下文特征进行语义分类处理,得到分类结果;当分类结果表明当前语音为拒绝识别的语音时,拒绝识别当前语音;当分类结果表明当前语音不为拒绝识别的语音时,则基于处理器对当前语音信息进行语义分析,得到分析结果,并基于智能音箱所包含的语音输出组件输出与分析结果对应的响应信息。
这里,当前文本的字面含义特征是指当前文本所包含的各字词的字面含义所携带的语义信息,例如,如果当前文本是“这个苹果真好”,基于当前文本中各字词的字面含义所携带的语义信息可以确定出词语中“苹果”可以指一种水果,也可以指苹果手机;如果当前文本是“这个苹果真好吃”,则基于当前文本中各字词的字面含义所携带的语义信息可以确定出词语中“苹果”可以指一种水果;如果当前文本是“这个苹果真好用”,则基于当前文本中各字词的字面含义所携带的语义信息可以确定出词语中“苹果”可以指苹果手机。当前文本的上下文可以是指与当前文本相邻的文本,例如,如果当前文本的当前所在的位置是m,则当前文本的上文可以指第m-n个文本,下文可以指第m+n个文本,其中,m和n分别为正整数。这里,当前文本和当前文本的上下文可以是句子、词语或者字符。例如,当前文本为“天气怎么样”,当前文本的上文是“今天”,下文是“穿什么比较合适”。
本公开实施例中,通过获取当前文本的字面含义特征和上下文特征,并对字面含义特征和上下文特征进行分析处理,能够使提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率。再例如,以电子设备是手机、用于进行人机交互的应用程序是手机语音助手为例,可以在手机上安装手机语音助手,在手机接收到唤醒手机语音助手的唤醒指令时,则唤醒手机语音助手,在唤醒手机语音助手之后,可以基于手机所包含的语音采集组件采集当前语音并对当前语音进行语义分析,确定出当前语音所包含的内容,例如当前语音所包含的语音内容可以为“请问现在是几点?”等。
本公开实施例中,在电子设备接收到当前语音之后,可以基于语音识别技术将当前语音由语音格式转换为文本格式,得到当前文本,例如,可以基于自动语音识别技术(Automatic Speech Recognition,ASR)对当前语音信息进行格式转换,将当前语音由语音格式转换为文本格式,得到当前文本。
在得到当前文本之后,可以将当前文本输入语义分析模型的特征提取部分,并基于语义分析模型所包含的特征提取部分对当前文本进行特征提取,获得当前文本的字面含义特征和上下文特征。这里,语义分析模型的特征提取部分可以基于预训练模型构建而成,例如,语义分析模型所包含的特征提取部分可以基于预先训练好的BERT模型构建而成。
在基于语义分析模型的特征提取部分提取到当前文本的字面含义特征和上下文特征之后,可以利用语义分析模型所包含的分类部分对该字面含义特征和上下文特征进行语义分类处理,得到分类结果。这里,语义分析模型的分类部分可以根据经过预处理的训练集(已预知类别的文档)学习建模构建出来的分类器,这里,可以基于预先训练好的深度学习网络构建而成,例如,语义分析模型所包含的分类部分可以基于预先训练好的神经网络模型构建而成,神经网络模型可以包括卷积神经网络(Convolutional Neural Network,CNN)。在其他可选的实施例中,还可以利用设定测试集文档按照设定测试方法对构建好的分类器进行性能测试,并不断反馈学习,以提高该分类器的性能。
这里,可以利用语义分析模型的分类部分对字面含义特征和上下文特征进行语义分类处理,得到分类结果,其中,分类结果用于表征当前语音是否为拒绝识别的语音,也就是说,可以基于语义分析模型的分类部分输出两种分类结果。其中,两种分类结果包括:拒绝识别当前语音的第一分类结果和不拒绝识别当前语音的第二分类结果。
以将字面含义特征和上下文特征输入语义分析模型的分类部分,并基于语义分析模型的分类部分输出两种分类结果为例,则可以分别得到两种分类结果的概率,并将概率最高的分类结果作为最终的分类结果。例如,如果输出第一分类结果的概率是0.3,输出第二分类结果的概率是0.7,则表明不拒绝识别当前语音;如果输出第一分类结果的概率是0.7,输出第二分类结果的概率是0.3,则表明拒绝识别当前语音。这里,概率值可以基于softmax函数对语义分析模型的分类部分所输出的数值进行归一化处理得到。
本公开实施例中,在人机交互前,可以根据获取的当前语音得到对应的当前文本,基于语义分析模型对从当前文本中提取的字面含义特征和上下文特征进行语义分类得到分类结果,并在分类结果表征当前语音为拒绝识别的语音时,拒绝识别当前语音。本公开中的技术方案,第一方面,可以将语义分析模型的特征提取部分和分类部分作为两个相互独立的部分,分别用于进行特征提取和分类,能够提高语义分析模型的的灵活性;第二方面,通过同时对当前文本的字面含义特征和上下文特征进行分析处理,相较于仅对当前文本的字面特征含义进行语义分析,能够结合当前文本的上下文确定出当前文本的语言环境,进而精确地确定出当前文本所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率;第三方面,不需要对拒绝识别的当前语音信息进行响应,不仅能够降低误响应的概率,还能够减少不必要的语义分析过程。
在其他可选的实施例中,所述方法还包括:
分别确定所述字面含义特征和所述上下文特征与所述当前文本的匹配度;
将所述字面含义特征和所述上下文特征与所述当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对所述字面含义特征的特征向量以及所述上下文特征的特征向量进行排序;
对排序后的所述字面含义特征的特征向量以及所述上下文特征的特征向量进行拼接处理,得到多个所述当前文本所对应的特征向量序列;
从所述特征向量序列中,选择出所述匹配度最高的特征向量,输入到所述分类部分。
这里,以语义分析模型的特征提取部分是基于预先训练好的BERT模型构建而成的为例,在基于BERT模型对特征向量序列进行特征提取的过程中,可以基于BERT模型从特征向量序列中提取所包含信息量最大的向量,作为输入到语义分析模型的分类部分的字面含义特征和上下文特征的特征向量;或者直接提取特征向量序列中设定位置的特征向量作为输入到语义分析模型的字面含义特征和上下文特征的特征向量。例如,将特征向量序列中开始位置的特征向量,即特征向量序列中的第一个特征向量作为输入到语义分析模型的分类部分的特征向量。
本公开实施例中,能够分别确定字面含义特征和上下文特征与当前文本的匹配度,将字面含义特征和上下文特征与当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对字面含义特征的特征向量以及上下文特征的特征向量进行排序,然后对排序后的字面含义特征的特征向量以及上下文特征的特征向量进行拼接处理,得到多个当前文本所对应的特征向量序列,并从特征向量序列中的初始位置开始提取出最能表征当前文本的字面含义和上下文含义的特征向量。本公开实施例中,通过同时对当前文本的字面含义特征和上下文特征进行分析处理,相较于仅对当前文本的字面特征含义进行语义分析,能够结合当前文本的上下文确定出当前文本的语言环境,进而精确地确定出当前文本所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率。
在其他可选的实施例中,在基于语义分析模型对当前文本中各字词进行语义分析之前,可以基于设定分词算法对当前文本进行分词处理,得到基于词表示的文本内容。例如,当前文本包含“今天天气真好”,对当前文本进行分词的结果可以为“今天天气真好”。其中,设定分词算法包括以下至少之一:基于字符串匹配的分词算法、基于理解的分词算法、基于统计的分词算法。
基于设定分词算法对当前文本进行分词处理之后,可以得到包含有至少一个字词的文本内容,这时,可以基于语义分析模型对文本内容所包含的字词进行处理,得到当前文本中各个字词的特征向量。这里,在获取待当前文本时,还可以获取当前文本的上下文,并基于语义分析模型对当前文本的上下文进行处理,得到上下文特征向量。
本公开实施例中,可以分别确定当前文本中各字词的字面含义特征与当前文本的匹配度,以及当前文本的上下文与当前文本的匹配度。比如,如果当前文本是“今天天气怎么样”,则可以确定用户想要表达的意思是确定今天的天气,基于此,可以确定出表征时间和天气的字词与当前文本的匹配度比较高。
这里,当前文本的上下文可以是指与当前文本相邻的文本,例如,如果当前文本的当前所在的位置是m,则当前文本的上文可以指第m-n个文本,下文可以指第m+n个文本,其中,m和n分别为正整数。这里,当前文本和当前文本的上下文可以是句子、词语或者字符。例如,当前文本为“天气怎么样”,当前文本的上文是“今天”,下文是“穿什么比较合适”,基于上下文分析可知用户想要表达的意思是根据今天的天气确定出穿什么衣服,基于此,可以确定出表征时间、天气和穿衣字词与当前文本的匹配度比较高。
在分别确定出各字词的字面含义特征、以及上下文与当前文本的匹配度之后,可以将各字词的字面特征含义的特征向量以及上下文特征的特征向量,按照匹配度从高到低进行排列,并根据排序结果将各个特征向量进行拼接处理,得到特征向量序列,例如,可以基于基于concat()方法对各个特征向量进行拼接,得到特征向量序列。还是以当前文本为“天气怎么样”,当前文本的上文是“今天”,下文是“穿什么比较合适”为例,基于上下文分析可知用户想要表达的意思是根据今天的天气确定出穿什么衣服,基于此,可以确定出表征时间、天气和穿衣字词与当前文本的匹配度比较高,这时,可以将表征天气、时间和穿衣对应的特征向量排在特征向量序列的开始位置。
本公开实施例中,通过确定出当前文本的各字词的特征向量和当前文本的上下文特征向量之后,可以确定当前文本中各字词以及上下文与当前文本的匹配度,进而根据匹配度对各字词的特征向量和上下文特征向量进行排序,得到特征向量序列。这样,可以将最能表征当前文本含义的特征向量排特征向量序列的开始位置,以为提取输入到语义分析模型的字面含义特征和上下文特征的特征向量提供便利性。
在其他可选的实施例中,所述基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征,包括:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述特征提取部分对所述当前文本的相邻文本提取的特征,作为上下文特征。
这里,在基于语义分析模型对当前文本中各字词进行语义分析之前,可以基于设定分词算法对当前文本进行分词处理,得到基于词表示的文本内容。例如,当前文本包含“今天天气真好”,对当前文本进行分词的结果可以为“今天天气真好”。其中,设定分词算法包括以下至少之一:基于字符串匹配的分词算法、基于理解的分词算法、基于统计的分词算法。
基于设定分词算法对当前文本进行分词处理之后,可以得到包含有至少一个字词的文本内容,这时,可以基于语义分析模型对文本内容所包含的字词进行处理,得到当前文本中各个字词的的字面含义特征。这里,在获取待当前文本时,还可以获取特征提取部分对当前文本的相邻文本提取的特征,作为上下文特征,并基于语义分析模型对该上下文特征进行处理,得到上下文特征向量。本公开实施例中,通过获取当前文本的字面含义特征和上下文特征,并对字面含义特征和上下文特征进行分析处理,相较于仅对当前文本的字面特征含义进行语义分析,能够结合当前文本的上下文确定出当前文本的语言环境,进而精确地确定出当前文本所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率。
在其他可选的实施例中,所述方法还包括:
基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
所述利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果,包括:
利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果。
由于当前文本可能代表多重含义,本公开实施例中,可以基于知识图谱将当前文本所能代表的含义(候选文本)全面展现出来,这时,可以确定当前文本与候选文本之间的相关度,并确定出相关度最大的候选文本(知识数据),进而得到知识数据特征。在得到知识数据特征之后,可以利用语义分析模型的分类部分对表征字面含义特征、上下文特征的特征向量,以及知识数据特征进行语义分类处理,得到分类结果。本公开实施例中,通过引入知识图谱,能够提高提取特征的多样性,减少因为所提取的特征过于单一而影响最终的分类结果。
在其他可选的实施例中,所述利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果,包括:
对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据所对应的特征向量进行拼接处理,得到输入到所述语义分析模型的拼接特征向量;
利用语义分析模型所包含的分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
这里,可以将表征字面含义特征的特征向量确定为第一特征向量;将表征上下文特征的特征向量确定为第二特征向量;将知识数据所对应的特征向量确定为第三特征向量。本公开实施例中,可以基于concat()方法对第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接特征向量,基于concat()方法不会改变第一特征向量、第二特征向量和第三特征向量,而仅会返回被连接的第一特征向量、第二特征向量和第三特征向量的一个副本(拼接特征向量),例如,可以在第一特征向量的末尾位置拼接第二特征向量,并在第二特征向量的末尾位置拼接第三特征向量,以得到拼接特征向量。
当拼接特征向量的维度较高时,还可以对拼接特征向量进行降维处理,其中,降维处理用于将高维数组压缩成低维数组。这里,可以基于设定降维算法对拼接特征向量进行降维处理,设定降维算法包括以下至少之一:线性降维算法、主成分分析(PrincipalComponent Analysis,PCA)算法、多维缩放(Multiple Dimensional Scaling,MDS)算法、线性判别分析(Linear Discriminant Analysis,LDA)算法、局部线性嵌入(Locally LinearEmbedding,LLE)算法。
以基于线性降维算法对拼接特征向量进行线性降维为例,可以通过对拼接特征向量进行线性变换,将拼接特征向量映射到比拼接特征向量的维度低的维度空间中表示。例如,如果确定出拼接特征向量X为d维,则可以经过线性变换公式将d维的X进行降维得到d’维目标特征向量X’,其中,d’≤d,得到的目标特征向量X’中的特征是拼接特征向量X中特征的线性组合。线性变换公式为:
X’=WTX (1);
公式(1)中,W是变换矩阵,X是拼接特征向量,X’是目标特征向量,变换矩阵W可以看成是d’个d维基向量。
图2A是根据一示例性实施例示出的另一种信息处理方法的流程图,如图2A所示,可以将当前语音信息分别输入拒识模块201和接收模块202。基于拒识模块201确定是否对当前语音信息进行拒绝识别,当拒识模块201确定拒绝识别当前语音信息时,则拒绝识别当前语音信息;基于接收模块202确定是否对当前语音信息进行响应,当接收模块202确定响应当前语音信息时,则可以对当前语音信息进行语义分析,并根据分析结果确定对应的响应信息。
图2B是根据一示例性实施例示出的一种模型结构示意图,如图2B所示,本公开实施例中,可以将卷积神经网络中的卷积层和池化层替换为BERT模型21,将BERT模型21作为语义分析模型的特征提取部分,并将卷积神经网络的分类部分作为语义分析模型的分类部分,共同构成语义分析模型。在实现的过程中,可以基于BERT模型21对当前文本进行特征提取,得到当前文本所对应的特征向量序列,并从特征向量序列中的开始位置,提取字面含义特征和上下文特征的特征向量,然后将提取的字面含义特征的特征向量、上下文特征的特征向量、与从知识图谱中获取的与当前文本相关联的知识数据的知识数据特征向量进行拼接,得到拼接特征向量,并将拼接特征向量输入卷积神经网络的分类部分,利用卷积神经网络的分类部分对拼接特征向量进行分类处理。例如,将拼接特征向量输入卷积神经网络的全连接层进行加权求和,并将加权求和的结果输入softmax函数,利用softmax函数输入的数值进行归一化处理得到表征分类结果的概率值。
在其他可选的实施例中,该信息处理方法能够适用于多个应用场景中,例如,可以用于对用户的身份进行识别、对音乐的播放进行调节、对视频的播放进行调节以及对电台的播放进行调节等各个应用场景。在各个场景下,用户的语音请求量会达到很高,但并不是所有接收到的语音请求都是用户真实想要请求的,可能会存在误唤醒、无关的人声、以及用户无意识的自言自语等,无效的语音请求占比甚至高达10%。
图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图,如图3所示,在将当前语音信息输入语音端点检测模块301(Voice Activity Detection,VAD)之后,可以基于VAD技术过滤掉非人声;然后再将过滤掉非人声的语音信息输入声纹拒识模块302进行声纹认证,并在声纹认证失败时拒绝识别语音信息;在声纹认证成功时,将认证成功的语音信息输入ASR拒识模块303,并基于ASR拒识模块303过滤掉不清晰和置信度低于设定置信度的语音信息;将基于ASR拒识模块303过滤的语音信息输入语音拒识模块304和语义拒识模块305,并基于语音拒识模块304和语义拒识模块305过滤掉不相关的语音信息、无意义的语音信息以及无意图的语音信息,这样,就能得到拒识/响应结果。在其他可钻的实施例中,各个拒识模块之间可以以串联的方式连接。如图4所示,图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。
本公开实施例中,通过设置拒识模块,能够解决该不该响应用户的问题,在原来能够听得清、听得懂、结果满足用户需求的基础上,更加智能化的实现不乱搭话。在其他可选的实施例中,经过日志的挖掘,发现在连续对话的应用场景下,不相关的人声占比大约15%,而基于本公开实施例所提出的技术方案,能够减少不相关的人声的输入,且本公开实施例所提及的拒识模块还能减少误唤醒的概率。
图5是根据一示例性实施例示出的信息处理装置框图。如图5所示,所述装置应用于电子设备,该信息处理装置50主要包括:
获取模块51,配置为获取当前语音,并得到所述当前语音对应的当前文本;
第一提取模块52,配置为基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
分类模块53,配置为利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;
拒识模块54,配置为当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
在其他可选的实施例中,所述装置50还包括:
第一确定模块,配置为分别确定所述字面含义特征和所述上下文特征与所述当前文本的匹配度;
排序模块,配置为将所述字面含义特征和所述上下文特征与所述当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对所述字面含义特征的特征向量以及所述上下文特征的特征向量进行排序;
文本处理模块,配置为对排序后的所述字面含义特征的特征向量以及所述上下文特征的特征向量进行拼接处理,得到多个所述当前文本所对应的特征向量序列;
第二提取模块,配置为从所述特征向量序列中,选择出所述匹配度最高的特征向量,输入到所述分类部分。
在其他可选的实施例中,所述第一提取模块52,还配置为:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述特征提取部分对所述当前文本的相邻文本提取的特征,作为上下文特征。
在其他可选的实施例中,所述装置50还包括:
第二确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
所述分类模块53,包括:
第一分类子模块,配置为利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果。
在其他可选的实施例中,所述第一分类子模块,还配置为:
对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据所对应的特征向量进行拼接处理,得到输入到所述语义分析模型的拼接特征向量;
利用语义分析模型所包含的分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WI-FI,2G或6G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得信息处理装置能够执行一种信息处理方法,所述方法应用于电子设备,包括:
获取当前语音,并得到所述当前语音对应的当前文本;
基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;
当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种信息处理方法,其特征在于,应用于电子设备,包括:
获取当前语音,并得到所述当前语音对应的当前文本;
基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
分别确定所述字面含义特征和所述上下文特征与所述当前文本的匹配度;
将所述字面含义特征和所述上下文特征与所述当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对所述字面含义特征的特征向量以及所述上下文特征的特征向量进行排序;
对排序后的所述字面含义特征的特征向量以及所述上下文特征的特征向量进行拼接处理,得到多个所述当前文本所对应的特征向量序列;
从所述特征向量序列中,选择出所述匹配度最高的特征向量,输入到分类部分;
利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;
当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
2.根据权利要求1所述的方法,其特征在于,所述基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征,包括:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述特征提取部分对所述当前文本的相邻文本提取的特征,作为上下文特征。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
所述利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果,包括:
利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果。
4.根据权利要求3所述的方法,其特征在于,所述利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果,包括:
对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据所对应的特征向量进行拼接处理,得到输入到所述语义分析模型的拼接特征向量;
利用语义分析模型所包含的分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
5.一种信息处理装置,其特征在于,应用于电子设备,包括:
获取模块,配置为获取当前语音,并得到所述当前语音对应的当前文本;
第一提取模块,配置为基于语义分析模型所包含的特征提取部分对所述当前文本进行特征提取,获取所述当前文本的字面含义特征和上下文特征;
第一确定模块,配置为分别确定所述字面含义特征和所述上下文特征与所述当前文本的匹配度;
排序模块,配置为将所述字面含义特征和所述上下文特征与所述当前文本的匹配度按照从高到低的顺序进行排序,并基于排序结果对所述字面含义特征的特征向量以及所述上下文特征的特征向量进行排序;
文本处理模块,配置为对排序后的所述字面含义特征的特征向量以及所述上下文特征的特征向量进行拼接处理,得到多个所述当前文本所对应的特征向量序列;
第二提取模块,配置为从所述特征向量序列中,选择出所述匹配度最高的特征向量,输入到分类部分;
分类模块,配置为利用语义分析模型所包含的分类部分对所述字面含义特征和所述上下文特征进行语义分类处理,得到分类结果;拒识模块,配置为当所述分类结果表明所述当前语音为拒绝识别的语音时,拒绝识别所述当前语音。
6.根据权利要求5所述的装置,其特征在于,所述第一提取模块,还配置为:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述特征提取部分对所述当前文本的相邻文本提取的特征,作为上下文特征。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
所述分类模块,包括:
第一分类子模块,配置为利用语义分析模型所包含的分类部分对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据特征进行语义分类处理,得到所述分类结果。
8.根据权利要求7所述的装置,其特征在于,所述第一分类子模块,还配置为:
对表征所述字面含义特征、所述上下文特征的特征向量,以及所述知识数据所对应的特征向量进行拼接处理,得到输入到所述语义分析模型的拼接特征向量;
利用语义分析模型所包含的分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
9.一种信息处理装置,其特征在于,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述权利要求1至4中任一种信息处理方法中的步骤。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述权利要求1至4中任一种信息处理方法中的步骤。
CN202010293475.XA 2020-04-15 2020-04-15 信息处理方法、装置及存储介质 Active CN111583919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293475.XA CN111583919B (zh) 2020-04-15 2020-04-15 信息处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293475.XA CN111583919B (zh) 2020-04-15 2020-04-15 信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111583919A CN111583919A (zh) 2020-08-25
CN111583919B true CN111583919B (zh) 2023-10-13

Family

ID=72112508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293475.XA Active CN111583919B (zh) 2020-04-15 2020-04-15 信息处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111583919B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667076A (zh) * 2020-12-23 2021-04-16 广州橙行智动汽车科技有限公司 一种语音交互的数据处理方法和装置
CN113221580B (zh) * 2021-07-08 2021-10-12 广州小鹏汽车科技有限公司 语义拒识方法、语义拒识装置、交通工具及介质
CN113822020B (zh) * 2021-11-22 2022-07-08 亿咖通(湖北)技术有限公司 文本处理方法、设备、存储介质
CN114203178B (zh) * 2021-12-10 2022-09-20 镁佳(北京)科技有限公司 一种智能语音系统拒识方法、装置及计算机设备
CN113990300B (zh) * 2021-12-27 2022-05-10 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器和计算机可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725295A (zh) * 2004-07-22 2006-01-25 索尼株式会社 语音处理装置、语音处理方法、程序、和记录介质
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
DE102015213722A1 (de) * 2015-07-21 2017-01-26 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN109741753A (zh) * 2019-01-11 2019-05-10 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、终端及服务器
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
CN110379412A (zh) * 2019-09-05 2019-10-25 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
CN110457689A (zh) * 2019-07-26 2019-11-15 科大讯飞(苏州)科技有限公司 语义处理方法及相关装置
CN110472130A (zh) * 2014-05-30 2019-11-19 苹果公司 降低对手动开始/结束点和触发短语的需求
CN110781666A (zh) * 2018-07-12 2020-02-11 国际商业机器公司 基于生成式对抗网络的自然语言处理文本建模

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079922A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 会话信息处理方法及其装置、存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725295A (zh) * 2004-07-22 2006-01-25 索尼株式会社 语音处理装置、语音处理方法、程序、和记录介质
CN110472130A (zh) * 2014-05-30 2019-11-19 苹果公司 降低对手动开始/结束点和触发短语的需求
DE102015213722A1 (de) * 2015-07-21 2017-01-26 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN110781666A (zh) * 2018-07-12 2020-02-11 国际商业机器公司 基于生成式对抗网络的自然语言处理文本建模
CN109741753A (zh) * 2019-01-11 2019-05-10 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、终端及服务器
CN110457689A (zh) * 2019-07-26 2019-11-15 科大讯飞(苏州)科技有限公司 语义处理方法及相关装置
CN110379412A (zh) * 2019-09-05 2019-10-25 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
车士伟 ; 吾守尔・斯拉木 ; .浅谈连续语音识别中的关键技术.电脑与信息技术.2010,(02),全文. *

Also Published As

Publication number Publication date
CN111583919A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111583907B (zh) 信息处理方法、装置及存储介质
CN111583919B (zh) 信息处理方法、装置及存储介质
JP6926339B2 (ja) 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体
CN111259148B (zh) 信息处理方法、装置及存储介质
US11455491B2 (en) Method and device for training image recognition model, and storage medium
CN112562675B (zh) 语音信息处理方法、装置及存储介质
CN111259967B (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN111435432B (zh) 网络优化方法及装置、图像处理方法及装置、存储介质
CN104077597B (zh) 图像分类方法及装置
CN111580773B (zh) 信息处理方法、装置及存储介质
CN114332503A (zh) 对象重识别方法及装置、电子设备和存储介质
CN111062401A (zh) 堆叠物体的识别方法及装置、电子设备和存储介质
CN111242205B (zh) 图像清晰度检测方法、装置及存储介质
CN114333804B (zh) 音频分类识别方法、装置、电子设备及存储介质
CN112381091B (zh) 视频内容识别方法、装置、电子设备及存储介质
CN112820300B (zh) 音频处理方法及装置、终端、存储介质
CN107135494B (zh) 垃圾短信识别方法及装置
CN115718801A (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN112149653B (zh) 信息处理方法、装置、电子设备及存储介质
CN114067334B (zh) 手写轨迹的识别方法、装置、电子设备及存储介质
CN115730073A (zh) 文本处理方法、装置及存储介质
CN112863499B (zh) 语音识别方法及装置、存储介质
CN112801116B (zh) 图像的特征提取方法及装置、电子设备和存储介质
CN117642817A (zh) 识别音频数据类别的方法、装置及存储介质
CN115146633A (zh) 一种关键词识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant