CN111462741B - 语音数据处理方法、装置及存储介质 - Google Patents
语音数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111462741B CN111462741B CN202010136193.9A CN202010136193A CN111462741B CN 111462741 B CN111462741 B CN 111462741B CN 202010136193 A CN202010136193 A CN 202010136193A CN 111462741 B CN111462741 B CN 111462741B
- Authority
- CN
- China
- Prior art keywords
- text data
- attribute
- data
- text
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000004044 response Effects 0.000 claims abstract description 57
- 238000003058 natural language processing Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 54
- 230000009471 action Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 description 20
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003796 beauty Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 208000020673 hypertrichosis-acromegaloid facial appearance syndrome Diseases 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本公开揭示了一种语音数据处理方法、装置及存储介质,属于人工智能技术领域。所述方法包括:首先通过对接收到的语音数据进行语音识别处理,获取语音数据对应的第一文本数据;然后对第一文本数据进行第一层语义解析,获得第一文本数据的有效性属性,其中有效性属性用于指示第一文本数据为有效数据或者无效数据;最后根据有效性属性,对第一文本数据进行语音数据响应或者结束所述语音数据处理。通过上述方案,通过设置双层过滤层进行局部的语义解析可以判断语音数据的有效性,大大降低了进行无意义的第二层语义解析的数量,提高了对输入语音响应的准确率。
Description
技术领域
本公开涉及人工智能技术领域,特别是涉及一种语音数据处理方法、装置及存储介质。
背景技术
目前,随着人工智能技术的日益发展,语音识别技术作为其中的中重要的一部分可以应用在智能音箱的交互场景下。
在相关技术中,通过智能音箱识别一段声音时,由于实际场景下的声音会掺杂部分无意义的语气词,与声音中的主体语音的含义无关,所以需要对声音进行过滤之后,再对过滤后的语音进行语义解析。声音进行过滤的内容可以是通过预先设置的一些无意义的语气词,通过自动过滤掉与声音中的预先设置的语气词,得到过滤后的需要进行语义分析的声音。
然而,相关技术中的方案仅对无意义的语气词进行过滤,对于语气词之外的其它无意义的内容都进行响应,从而导致对输入语音的响应的准确性不高。
发明内容
本公开提供一种语音数据处理方法、装置及存储介质。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种语音数据处理方法,其特征在于,所述方法包括:
对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据;
对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据;
根据所述有效性属性,对所述第一文本数据进行语音数据响应或者结束所述语音数据处理。
可选的,所述对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据,包括:
对所述语音数据进行语音识别处理,获得语音识别文本;
根据预先设置的黑名单对所述语音识别文本进行匹配;所述黑名单中包括唤醒词以及高频语气词中的至少一种;
从所述语音识别文本中删除与所述黑名单匹配的内容,获得所述第一文本数据。
可选的,所述根据所述有效性属性,对所述第一文本数据进行第二层语义解析或者结束所述语音数据处理,包括:
响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析或者直接生成所述第一文本数据对应的应答文本;
响应于所述第一文本数据的有效性属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据。
可选的,所述对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性;
其中,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种。
可选的,当所述有效性属性包括所述关联属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,获取当前运行的应用程序的属性以及所述第一文本数据的前n条文本数据,n为大于或等于1的整数;
结合当前运行的所述应用程序的属性对所述第一文本数据以及所述前n条文本数据进行上下文关系解析,获得所述关联属性,所述关联属性用于指示所述第一文本数据与所述前n条文本数据之间是否存在上下文关系。
可选的,当所述有效性属性包括所述指令属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
获取当前运行的应用程序对应的指令词库;
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与所述指令词库进行匹配,获得第一匹配结果;
获取与所述第一匹配结果相对应的所述指令属性,所述指令属性用于指示所述第一文本数据中是否存在所述指令词库中的指令词。
可选的,当所述有效性属性包括所述语境属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与指定语境词库进行匹配,获得第二匹配结果;
获取与所述第二匹配结果相对应的所述语境属性,所述语境属性用于指示所述第一文本数据中是否存在所述指定语境词库中的语境词。
可选的,当所述有效性属性包括所述关联属性、所述指令属性以及所述语境属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述上下文关系;
当所述第一文本数据存在所述上下文关系时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述指令词库中的指令词;
当所述第一文本数据存在所述指令词库中的指令词时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性。
根据本公开实施例的第二方面,提供了一种语音数据处理装置,所述装置包括:
文本获取模块,用于对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据;
属性获取模块,用于对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据;
文本处理模块,用于根据所述有效性属性,对所述第一文本数据进行语音数据响应或者结束所述语音数据处理。
可选的,所述文本获取模块,包括:
语音识别子模块,用于对所述语音数据进行语音识别处理,获得语音识别文本;
文本匹配子模块,用于根据预先设置的黑名单对所述语音识别文本进行匹配;所述黑名单中包括唤醒词以及高频语气词中的至少一种;
文本获得子模块,用于从所述语音识别文本中删除与所述黑名单匹配的内容,获得所述第一文本数据。
可选的,所述文本处理模块,包括:
第一处理子模块,用于响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析或者直接生成所述第一文本数据对应的应答文本;
第二处理子模块,用于响应于所述第一文本数据的有效性属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据。
可选的,所述属性获取模块,包括:
属性获取子模块,用于在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性;
其中,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种。
可选的,当所述有效性属性包括所述关联属性时,所述属性获取子模块,用于,
在对所述第一文本数据进行自然语言处理过程中,获取当前运行的应用程序的属性以及所述第一文本数据的前n条文本数据,n为大于或等于1的整数;
结合当前运行的所述应用程序的属性对所述第一文本数据以及所述前n条文本数据进行上下文关系解析,获得所述关联属性,所述关联属性用于指示所述第一文本数据与所述前n条文本数据之间是否存在上下文关系。
可选的,当所述有效性属性包括所述指令属性时,所述属性获取子模块,用于,
获取当前运行的应用程序对应的指令词库;
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与所述指令词库进行匹配,获得第一匹配结果;
获取与所述第一匹配结果相对应的所述指令属性,所述指令属性用于指示所述第一文本数据中是否存在所述指令词库中的指令词。
可选的,当所述有效性属性包括所述语境属性时,所述属性获取子模块,用于,
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与指定语境词库进行匹配,获得第二匹配结果;
获取与所述第二匹配结果相对应的所述语境属性,所述语境属性用于指示所述第一文本数据中是否存在所述指定语境词库中的语境词。
可选的,当所述有效性属性包括所述关联属性、所述指令属性以及所述语境属性时,所述属性获取子模块,用于,
对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述上下文关系;
当所述第一文本数据存在所述上下文关系时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述指令词库中的指令词;
当所述第一文本数据存在所述指令词库中的指令词时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性。
根据本公开实施例的第三方面,提供了一种语音数据处理装置,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据;
对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据;
根据所述有效性属性,对所述第一文本数据进行语音数据响应或者结束所述语音数据处理。
根据本公开实施例的第四方面,提供了一种计算机设备可读存储介质,所述计算机设备可读存储介质中包含可执行指令,所述可执行指令由处理器调用执行,以实现上述第一方面或者第一方面的任一可选方案所述的语音数据处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
首先通过对接收到的语音数据进行语音识别处理,获取语音数据对应的第一文本数据;然后对第一文本数据进行语义解析,获得第一文本数据的有效性属性,其中有效性属性用于指示第一文本数据为有效数据或者无效数据;最后根据有效性属性,对第一文本数据进行语音数据响应或者结束语音数据处理。通过上述方案,接收到的语音数据可以通过语音识别处理ASR与部分自然语言处理NLP双层处理,对语音数据进行过滤得到需要进行响应的语音数据,通过设置双层过滤层进行局部的语义解析可以判断语音数据的有效性,大大降低了进行无意义的第二层语义解析的数量,提高了对输入语音响应的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据实施例示出的一种语音数据处理系统的示意图;
图2是根据一示例性实施例示出的一种语音数据处理方法的示意图;
图3是根据一示例性实施例示出的一种语音数据处理方法的流程图;
图4是根据另一示例性实施例示出的一种语音数据处理方法的流程图;
图5是根据一示例性实施例示出的一种语音数据处理装置的框图;
图6示出了本公开一个示例性实施例提供的电子设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了方便理解,下面对本公开实施例中涉及的名词进行说明。
1)人工智能
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)语音技术(Speech Technology)
语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(text-to-speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
图1是根据实施例示出的一种语音数据处理系统的示意图。该语音数据处理系统中包括若干个可以用于具有语音识别功能且通过语音识别进行人机交互的电子设备110,声源120,以及云端130。
比如,电子设备110可以包括但不限于智能音箱、智能电视、智能机器人、智能冰箱、智能空调、智能电饭煲、智能传感器(比如红外传感器、光线传感器、震动传感器以及声音传感器等)、智能净水器等固定安装或者小范围移动的设备,或者也可以是MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、智能蓝牙耳机等移动设备。
可选的,电子设备110可以接收由声源120发出的语音数据,并且对语音数据进行一定的处理。
可选的,电子设备110可以通过有线或者无线的形式与云端130进行数据传输。
其中,云端130中可以包含有用来存储数据的数据库。
在一种可能的情况下,无线网络或者有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,MAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
在一种可能实现的实施方式中,该电子设备110可以从实际场景中的声源120接收到语音数据,并且可以通过有线或者无线的方式与云端进行数据传输,比如,可以从云端的数据库中查询获取数据。通过本公开实施例提供的语音数据处理方法,该电子设备可以过滤掉接收到的语音数据中不需要进行语义解析的部分语音数据,得到需要进行第二层语义解析的语音数据部分。
图2是根据一示例性实施例示出的一种语音数据处理方法的示意图。如图2所示,该语音数据处理方法包括的步骤如下:
在步骤201中,在ASR层设置黑名单,对高频的无效词、无意义的语气词以及唤醒词进行过滤,得到过滤后的文字数据。
在一种可能的实现方式中,通过在文本形式设置黑名单,其中该黑名单可以按照需求进行修改,增加或者删除部分词语。首先,通过ASR将接收到的语音数据转换成文字数据,与黑名单中的词语进行对比,将文字数据中出现的黑名单中的词语进行删除,将删除后的文字数据,也就是初步过滤的文字数据进行NLP(Natural Language Processing,自然语言处理)。
比如,设置的黑名单中唤醒词为“小美小美”,高频的语气词有“嗯”“啊”“哦”“哈”以及“呵”等。当智能音箱接收到的语音数据转换成文字数据为“小美小美帮我哈打开嗯嗯灯”时,经过与黑名单中的词语进行比对,将文字数据中的唤醒词与高频的语气词进行删除,得到“帮我打开灯”。
在步骤202中,将过滤后的文字数据进行逻辑判断,过滤无意义句式。
在一种可能的实现方式中,通过在第一层语义解析的过程中添加判断逻辑,判断初步过滤的文字数据是否为无效数据,其中,添加的判断是否为无效数据的判断逻辑可以有判断该文字数据是否有上下文、判断该文字数据是否有指令性操作、判断该文字数据是否为闲聊。
其中,当判断是否有上下文逻辑时,通过对接收到的上一句文字数据和当前接收到的文字数据进行语义解析,根据判断逻辑,若结合上一句文字数据的语义可以理解当前文字数据的语义,则判断当前文字数据与上一句文字数据之间是存在联系的。
比如,当接收到的当前文字数据为“明天呢?”,单从这一句话无法解析出含义,但是当解析上一句的文字数据为“今天天气怎么样?”通过将两句话的含义进行结合,可以判断出“明天呢?”的含义是“明天天气怎么样?”,通过上下文结合的方式可以判断出当前文字数据的执行意图,当前文字数据不是无效数据。
图3是根据一示例性实施例示出的一种语音数据处理方法的流程图。该语音数据处理方法可以应用于电子设备中,以对接收到的语音数据进行过滤处理。如图3所示,该语音数据处理方法可以包括以下步骤:
在步骤301中,对接收到的语音数据进行语音识别处理,获取该语音数据对应的第一文本数据。
在步骤302中,对该第一文本数据进行第一层语义解析,获得该第一文本数据的有效性属性,该有效性属性用于指示该第一文本数据为有效数据或者无效数据。
在步骤303中,根据该有效性属性,对该第一文本数据进行语音数据响应或者结束所述语音数据处理。
可选的,所述对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据,包括:
对所述语音数据进行语音识别处理,获得语音识别文本;
根据预先设置的黑名单对所述语音识别文本进行匹配;所述黑名单中包括唤醒词以及高频语气词中的至少一种;
从所述语音识别文本中删除与所述黑名单匹配的内容,获得所述第一文本数据。
可选的,该根据该有效性属性,对该第一文本数据进行第二层语义解析或者结束所述语音数据处理,包括:
响应于该第一文本数据的有效性属性指示该第一文本数据为有效数据,通过第二层语义解析或者直接生成该第一文本数据对应的应答文本;
响应于该第一文本数据的有效性属性指示该第一文本数据为无效数据,丢弃该第一文本数据。
可选的,该对该第一文本数据进行第一层语义解析,获得该第一文本数据的有效性属性,包括:
在对该第一文本数据进行自然语言处理过程中,对该第一文本数据进行所述第一层语义解析,获得该第一文本数据的该有效性属性;
其中,该有效性属性包含关联属性、指令属性以及语境属性中的至少一种。
可选的,当该有效性属性包括该关联属性时,该在对该第一文本数据进行自然语言处理过程中,对该第一文本数据进行所述第一层语义解析,获得该第一文本数据的该有效性属性,包括:
在对该第一文本数据进行自然语言处理过程中,获取当前运行的应用程序的属性以及该第一文本数据的前n条文本数据,n为大于或等于1的整数;
结合当前运行的该应用程序的属性对该第一文本数据以及该前n条文本数据进行上下文关系解析,获得该关联属性,该关联属性用于指示该第一文本数据与该前n条文本数据之间是否存在上下文关系。
可选的,当该有效性属性包括该指令属性时,该在对该第一文本数据进行自然语言处理过程中,对该第一文本数据进行所述第一层语义解析,获得该第一文本数据的该有效性属性,包括:
获取当前运行的应用程序对应的指令词库;
在对该第一文本数据进行自然语言处理过程中,将该第一文本数据与该指令词库进行匹配,获得第一匹配结果;
获取与该第一匹配结果相对应的该指令属性,该指令属性用于指示该第一文本数据中是否存在该指令词库中的指令词。
可选的,当该有效性属性包括该语境属性时,该在对该第一文本数据进行自然语言处理过程中,对该第一文本数据进行所述第一层语义解析,获得该第一文本数据的该有效性属性,包括:
在对该第一文本数据进行自然语言处理过程中,将该第一文本数据与指定语境词库进行匹配,获得第二匹配结果;
获取与该第二匹配结果相对应的该语境属性,该语境属性用于指示该第一文本数据中是否存在该指定语境词库中的语境词。
可选的,当该有效性属性包括该关联属性、该指令属性以及该语境属性时,该在对该第一文本数据进行自然语言处理过程中,对该第一文本数据进行该第一层语义解析,获得该第一文本数据的该有效性属性,包括:
对该第一文本数据进行该第一层语义解析,获得该第一文本数据是否存在该上下文关系;
当该第一文本数据存在该上下文关系时,对该第一文本数据进行该第一层语义解析,获得该第一文本数据是否存在该指令词库中的指令词;
当该第一文本数据存在该指令词库中的指令词时,对该第一文本数据进行该第一层语义解析,获得该第一文本数据的该有效性属性。
综上所述,本公开实施例中提供的语音数据处理方法,首先通过对接收到的语音数据进行语音识别处理,获取语音数据对应的第一文本数据;然后对第一文本数据进行语义解析,获得第一文本数据的有效性属性,其中有效性属性用于指示第一文本数据为有效数据或者无效数据;最后根据有效性属性,对第一文本数据进行语音数据响应或者结束语音数据处理。通过上述方案,接收到的语音数据可以通过语音识别处理ASR与部分自然语言处理NLP双层处理,对语音数据进行过滤得到需要进行响应的语音数据,通过设置双层过滤层进行局部的语义解析可以判断语音数据的有效性,大大降低了进行无意义的第二层语义解析的数量,提高了对输入语音响应的准确率。
图4是根据另一示例性实施例示出的一种语音数据处理方法的流程图,该语音数据处理方法可以应用于电子设备中,以对电子设备接收到的语音数据进行过滤处理。如图4所示,该语音数据处理方法可以包括以下步骤:
步骤401,电子设备对该语音数据进行语音识别处理,获得语音识别文本。
在本公开实施例中,电子设备可以通过声音采集组件获取到语音数据,通过语音识别处理技术,将获取到的语音数据转化成文本数据,可以将获得的该文本数据作为语音识别文本。
其中,该语音识别文本可以包含当前接收到的语音数据中的全部内容。电子设备中的声音采集组件可以是麦克风阵列或者是单一麦克风。
比如,当电子设备为一种智能音箱时,智能音箱中的声音采集组件可以周期性的采集声学环境中的语音数据,将接收到的语音数据通过ASR处理,获取到当前的语音数据对应的文本数据,该文本数据可以以文本文件的形式暂时存储在智能音箱中,可以用来进行后续处理。
步骤402,电子设备根据预先设置的黑名单对该语音识别文本进行匹配。
在本公开实施例中,电子设备的存储器中可以存储有预先设置好的黑名单文本文件,该文本文件中记录了部分词语或者语句,电子设备可以将进行ASR获得的语音识别文本与该黑名单文本文件进行匹配,匹配的方式可以通过查询语音识别文本中是否存在黑名单文本文件中的部分词语或者语句进行,若存在黑名单文本文件中的部分词语或者语句,则这部分词语或者语句为与黑名单相匹配的文本数据部分。
可选的,黑名单中的部分词语或者语句可以包括唤醒词以及高频语气词中的至少一种。
其中,唤醒词可以是用来开启该电子设备的声音采集功能的一类词语,不同的厂家生产的电子设备设置的唤醒词可以是不同的,唤醒词可以在该电子设备的开发过程中进行设置。
比如,若该电子设备的唤醒词为“小美小美”,则可以将“小美小美”记录在该电子设备的黑名单中。当语音识别文本中出现“小美小美”时,该词语可以得到匹配。
另外,高频语气词可以是无实际含义的语气词或者无实际含义的口头禅。
可选的,该黑名单中的内容可以是以电子设备自带的不可修改的文本文件的形式存在,或者,也可以是以用户可以进行自行修改的文本文件的形式存在。
比如,黑名单中可以记录“嗯、啊、哦、哈、呵、哎呀”等无实际意义的语气词。同时,若电子设备在实际进行语义解析的过程中经常出现“无XX”一种没有实际含义的词语,则可以自动添加“种XX”进入黑名单,或者,用户也可以在黑名单自定义输入一些词语,对黑名单进行个性化的设置。
步骤403,电子设备从该语音识别文本中删除与该黑名单匹配的内容,获得该第一文本数据。
在本公开实施例中,电子设备可以获取到当前语音识别文本中与黑名单中的内容相重复的部分,可以将当前的语音识别文本中与黑名单中的内容相重复的部分进行删除,获得删除后的文本数据作为第一文本数据。
比如,当设置的黑名单中包含“嗯、啊、哦、哈、呵、哎呀”等语气词以及唤醒词为“小美小美”,获取到的当前语音识别文本为“小美小美啊打开嗯A哈第十集”,将这个语音识别文本与黑名单相匹配,可以得到重复的词为“小美小美”“嗯”“哈”“啊”,将这些重复的词进行删除可以得到第一文本数据为“打开A第十集”。
步骤404,在对该第一文本数据进行自然语言处理过程中,电子设备对该第一文本数据进行第一层语义解析,获得该第一文本数据的该有效性属性。
在本公开实施例中,第一文本数据通过进行第一层的NLP,可以对该第一文本数据进行初步的语义解析,在语义解析的过程中可以获取该第一文本数据的有效性属性。
其中,语音数据在通过自然语言处理ASR层之后,可以进入第一层的NLP层。第一层语义解析可以根据预先存储的部分语句、词语,获取第一文本数据中的有效性属性。
可选的,第一层语义解析可以是只对第一文本数据中的一部分词语进行语义解析。
可选的,该有效性属性包含关联属性、指令属性以及语境属性中的至少一种。
其中,获取三种有效性属性的步骤可以如下:
1)获取当前第一文本数据的关联属性。
其中,关联属性可以用来表示在固定的语义解析场景下,当前的第一文本数据与之前进行过语义解析的文本数据之间是否存在语义的连贯性。
可选的,在对该第一文本数据进行自然语言处理过程中,电子设备获取当前运行的应用程序的属性以及该第一文本数据的前n条文本数据,其中,n为大于或等于1的整数;结合当前运行的该应用程序的属性对该第一文本数据以及该前n条文本数据进行上下文关系解析,获得该关联属性,其中该关联属性用于指示该第一文本数据与该前n条文本数据之间是否存在上下文关系。
其中,电子设备当前运行的应用程序的属性可以是当前运行的应用程序的种类。电子设备获取当前运行的应用程序的属性是为了使获取当前第一文本数据的关联属性可以在特定的语义解析场景下进行,可以使语义解析更加具有针对性。
比如,当前电子设备正在运行一个音乐播放的应用程序,该应用程序的种类为音频播放类,接下来对当前进行语义解析的第一文本数据可以针对性的在音频播放得语义场景下进行语义解析。
可选的,电子设备结合当前运行的该应用程序的属性对该第一文本数据以及该前n条文本数据进行上下文关系解析的方法可以是,通过提取前n条文本数据中的关键信息与当前第一文本数据中的关键信息结合当前运行的应用程序的场景,生成一个新的文本数据,用来进行语义解析。
可选的,电子设备可以通过预先设置存储或者曾经在语音识别过程中获取的上下文句式,作为判断是否具有关联属性的依据,这些上下文句式可以在后续的实际应用中不断的进行更新和扩充。
比如,在电子设备应用天气技能时,天气技能中可以将问法“明天呢”预先存储在第一层NLP中。当电子设备接收到第一文本数据为“今天北京天气怎么样?”根据语义解析可以解析为天气技能。当电子设备随后接收到第一文本数据为“明天呢?”,根据第一层的NLP中存储的句式可以匹配到了天气技能的上下文,直接解析为明天北京的天气。
其中,电子设备可以通过预先获取当前使用的技能,以及当前技能对应的第一层NLP中存储的上下文句式,判断是否具有关联属性。
可选的,当电子设备匹配了上下文数据,但是未匹配到对应技能,可以判断当前第一文本数据不具有关联属性。
比如,电子设备在运行音乐播放应用程序的过程中,在一定的时间段内接收到了若干条语音数据,分别是“播放A的歌曲”以及“调大音量”,当前接收到的语音数据经过处理的得到的第一文本数据是“下一个”,当电子设备不结合之前获取的文本数据对当前的第一文本数据“下一个”进行语义解析时,会出现“下一个”表达的意义不清晰,无法对该第一文本数据进行下一步处理。而当结合之前一段时间获取的文本数据以及当前运行的应用程序场景可以进行语义解析,即提取“播放A的歌曲”中的“的的歌曲”这一关键信息,以及当前运行的应用程序时音乐播放类应用,则结合当前的第一文本数据中的关键信息“下一个”,可以生成新的文本数据是“播放下一个A的歌曲”,新生成的文本数据经过第一层语义解析有实际意义,则该第一文本数据获得的关联属性为具有关联性。
2)获取当前第一文本数据的指令属性。
其中,指令属性可以用来表示在固定的语义解析场景下,当前的第一文本数据是否存在可执行的指令。
可选的,电子设备通过获取当前运行的应用程序对应的指令词库;在对该第一文本数据进行自然语言处理过程中,将该第一文本数据与该指令词库进行匹配,获得第一匹配结果;获取与该第一匹配结果相对应的该指令属性,其中,该指令属性可以用于指示该第一文本数据中是否存在该指令词库中的指令词。
可选的,不同属性的应用程序对应的指令词库可以是不同的,通过获取当前运行的应用程序的属性,获取与该应用程序对应的指令词库。
其中,当应用程序的属性为音乐播放类时,对应的指令词库可以包含下一首、上一首、音量调大以及音量调小等;当应用程序的属性为视频播放类时,对应的指令词库中可以包括暂停、快进等。
比如,当电子设备当前运行的应用程序为家居控制类时,获取对应的指令词库中包含“打开”、“关闭”、“调亮”以及“调暗”等指令词,获取到的第一文本数据是“调亮”,可以结合当前场景中的灯光控制的指令词库,获得该第一文本数据具有的指令属性是存在该指令词库中的指令词。
另外,当电子设备当前运行的应用程序发生改变时,当前运行的应用程序为视频播放类应用,获取该类型用的指令词库中同样包含“调亮”,也可以获取该第一文本数据具有的指令属性是存在该指令词库中的指令词,但是与应用程序为家居控制类时的后续处理上是不同的。
3)获取当前第一文本数据的语境属性。
其中,语境属性可以用来表示电子设备对当前的第一文本数据是否存在固定的响应。
可选的,在对该第一文本数据进行自然语言处理过程中,电子设备将该第一文本数据与指定语境词库进行匹配,获得第二匹配结果;电子设备获取与该第二匹配结果相对应的该语境属性,其中该语境属性用于指示该第一文本数据中是否存在该指定语境词库中的语境词。
可选的,指定语境词库可以是存储在云端的数据库中的词库,该指定语境词库中可以包含语境词句以及语境词句对应的响应。
其中,语境词语对应的响应可以是固定的语音答复响应或者是固定的电子设备执行动作响应。
比如,通过进行预先设置,语境词库中可以包含例如语境词语为“我爱你”,其对应的语音答复为“我也爱你”相类似的语境词语和相应的匹配对。当电子设备接收到的语音数据进行处理后得到的第一文本数据为“我爱你”时,通过查询指定语境词库可以找到对应的匹配对,获取到该第一文本数据具有的语境属性为指定语境词库中有相匹配的的语境词。
可选的,第一文本数据可以在第一层NLP中,获取当前第一文本数据的关联属性,根据关联属性确定当前第一文本数据具有上下文关系,然后获取当前第一文本数据的指令属性,当确定当前第一文本数据中存在指令词库中的指令词时,获取当前第一文本数据的语境属性,最后获得第一文本数据的有效性属性。
步骤405,根据该有效性属性,电子设备对该第一文本数据进行语音数据响应或者结束所述语音数据处理。
在本公开实施例中,电子设备可以获取到一种或者多种有效性属性,当根据其中任意一种有效性属性确定该第一文本数据为有效数据时,则可以对该第一文本数据进行下一步处理,当根据其中任意一种有效性属性确定该第一文本数据为无效数据时,则可以无需对该第一文本数据进行下一步处理。
可选的,第二层语义解析可以用来指示对有效数据进行完整的语义解析,与第一层语义解析相比需要调用的NLP更多。
其中,当关联属性用于指示该第一文本数据与前n条文本数据之间存在上下文关系,或者,当指令属性指示该第一文本数据中存在该指令词库中的指令词,或者,当语境属性指示该第一文本数据中不存在该指定语境词库中的语境词,即满足上述三种条件中的至少一种时,电子设备可以确定该第一文本数据是有效数据。
而当关联属性用于指示该第一文本数据与前n条文本数据之间不存在上下文关系,指令属性指示该第一文本数据中不存在该指令词库中的指令词,且语境属性指示该第一文本数据中存在该指定语境词库中的语境词,即同时满足上述三种条件时,电子设备可以确定该第一文本数据是无效数据。
可选的,响应于该第一文本数据的有效性属性指示该第一文本数据为有效数据,通过第二层语义解析或者直接生成该第一文本数据对应的应答文本。
其中,当第一文本数据确定为有效数据时,即当该第一文本数据的有效性属性中的关联属性为该第一文本数据与该前n条文本数据之间存在上下文关系时,则对结合前n条文本数据新生成的该文本数据进行进一步的语义解析,或者,当该第一文本数据的有效性属性中的指令属性为该第一文本数据中存在该指令词库中的指令词时,则通知执行指令词对应的应答响应,或者,当该第一文本数据的有效性属性中的语境属性为该第一文本数据中存在该指定语境词库中的语境词,则电子设备可以通知进行语境词对应的响应。
可选的,响应于该第一文本数据的有效性属性指示该第一文本数据为无效数据,丢弃该第一文本数据。
其中,当第一文本数据确定为无效数据时,即当该第一文本数据的有效性属性中的关联属性为该第一文本数据与该前n条文本数据之间不存在上下文关系,且指令属性为该第一文本数据中不存在该指令词库中的指令词,且以及语境属性为该第一文本数据中不存在该指定语境词库中的语境词时,电子设备可以直接丢弃第一文本数据,不进行后续的语义解析。
综上所述,本公开实施例中提供的语音数据处理方法,首先通过对接收到的语音数据进行语音识别处理,获取语音数据对应的第一文本数据;然后对第一文本数据进行语义解析,获得第一文本数据的有效性属性,其中有效性属性用于指示第一文本数据为有效数据或者无效数据;最后根据有效性属性,对第一文本数据进行语音数据响应或者结束语音数据处理。通过上述方案,接收到的语音数据可以通过语音识别处理ASR与部分自然语言处理NLP双层处理,对语音数据进行过滤得到需要进行响应的语音数据,通过设置双层过滤层进行局部的语义解析可以判断语音数据的有效性,大大降低了进行无意义的第二层语义解析的数量,提高了对输入语音响应的准确率。
图5是根据一示例性实施例示出的一种语音数据处理装置的框图,如图5所示,该语音数据处理方法可以由电子设备执行,以对接收到的语音数据进行过滤处理。如图5所示,该语音数据处理装置可以包括:
文本获取模块510,用于对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据;
属性获取模块520,用于对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据;
文本处理模块530,用于根据所述有效性属性,对所述第一文本数据进行语音数据响应或者结束所述语音数据处理。
可选的,所述文本获取模块510,包括:
语音识别子模块,用于对所述语音数据进行语音识别处理,获得语音识别文本;
文本匹配子模块,用于根据预先设置的黑名单对所述语音识别文本进行匹配;所述黑名单中包括唤醒词以及高频语气词中的至少一种;
文本获得子模块,用于从所述语音识别文本中删除与所述黑名单匹配的内容,获得所述第一文本数据。
可选的,所述文本处理模块530,包括:
第一处理子模块,用于响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析或者直接生成所述第一文本数据对应的应答文本;
第二处理子模块,用于响应于所述第一文本数据的有效性属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据。
可选的,所述属性获取模块520,包括:
属性获取子模块,用于在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性;
其中,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种。
可选的,当所述有效性属性包括所述关联属性时,所述属性获取子模块,用于,
在对所述第一文本数据进行自然语言处理过程中,获取当前运行的应用程序的属性以及所述第一文本数据的前n条文本数据,n为大于或等于1的整数;
结合当前运行的所述应用程序的属性对所述第一文本数据以及所述前n条文本数据进行上下文关系解析,获得所述关联属性,所述关联属性用于指示所述第一文本数据与所述前n条文本数据之间是否存在上下文关系。
可选的,当所述有效性属性包括所述指令属性时,所述属性获取子模块,用于,
获取当前运行的应用程序对应的指令词库;
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与所述指令词库进行匹配,获得第一匹配结果;
获取与所述第一匹配结果相对应的所述指令属性,所述指令属性用于指示所述第一文本数据中是否存在所述指令词库中的指令词。
可选的,当所述有效性属性包括所述语境属性时,所述属性获取子模块,用于,
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与指定语境词库进行匹配,获得第二匹配结果;
获取与所述第二匹配结果相对应的所述语境属性,所述语境属性用于指示所述第一文本数据中是否存在所述指定语境词库中的语境词。
可选的,当所述有效性属性包括所述关联属性、所述指令属性以及所述语境属性时,所述属性获取子模块,用于,
对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述上下文关系;
当所述第一文本数据存在所述上下文关系时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述指令词库中的指令词;
当所述第一文本数据存在所述指令词库中的指令词时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性。
综上所述,本公开实施例中提供的语音数据处理方法,首先通过对接收到的语音数据进行语音识别处理,获取语音数据对应的第一文本数据;然后对第一文本数据进行语义解析,获得第一文本数据的有效性属性,其中有效性属性用于指示第一文本数据为有效数据或者无效数据;最后根据有效性属性,对第一文本数据进行语音数据响应或者结束语音数据处理。通过上述方案,接收到的语音数据可以通过语音识别处理ASR与部分自然语言处理NLP双层处理,对语音数据进行过滤得到需要进行响应的语音数据,通过设置双层过滤层进行局部的语义解析可以判断语音数据的有效性,大大降低了进行无意义的第二层语义解析的数量,提高了对输入语音响应的准确率。
需要说明的一点是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种语音数据处理装置,该语音数据处理装置可以通过硬件或者软硬结合的方式实现为电子设备或者终端的全部或者部分,能够实现本公开上述图3或图4任一所示实施例中的全部或部分步骤,该语音数据处理方法可以由电子设备执行,以对接收到的语音数据进行过滤处理。该语音数据处理装置还包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据;
对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据;
根据所述有效性属性,对所述第一文本数据进行语音数据响应或者结束所述语音数据处理。
可选的,所述对接收到的语音数据进行语音识别处理,获取所述语音数据对应的第一文本数据,包括:
对所述语音数据进行语音识别处理,获得语音识别文本;
根据预先设置的黑名单对所述语音识别文本进行匹配;所述黑名单中包括唤醒词以及高频语气词中的至少一种;
从所述语音识别文本中删除与所述黑名单匹配的内容,获得所述第一文本数据。
可选的,所述根据所述有效性属性,对所述第一文本数据进行第二层语义解析或者结束所述语音数据处理,包括:
响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析或者直接生成所述第一文本数据对应的应答文本;
响应于所述第一文本数据的有效性属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据。
可选的,所述对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性;
其中,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种。
可选的,当所述有效性属性包括所述关联属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,获取当前运行的应用程序的属性以及所述第一文本数据的前n条文本数据,n为大于或等于1的整数;
结合当前运行的所述应用程序的属性对所述第一文本数据以及所述前n条文本数据进行上下文关系解析,获得所述关联属性,所述关联属性用于指示所述第一文本数据与所述前n条文本数据之间是否存在上下文关系。
可选的,当所述有效性属性包括所述指令属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
获取当前运行的应用程序对应的指令词库;
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与所述指令词库进行匹配,获得第一匹配结果;
获取与所述第一匹配结果相对应的所述指令属性,所述指令属性用于指示所述第一文本数据中是否存在所述指令词库中的指令词。
可选的,当所述有效性属性包括所述语境属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与指定语境词库进行匹配,获得第二匹配结果;
获取与所述第二匹配结果相对应的所述语境属性,所述语境属性用于指示所述第一文本数据中是否存在所述指定语境词库中的语境词。
可选的,当所述有效性属性包括所述关联属性、所述指令属性以及所述语境属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性,包括:
对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述上下文关系;
当所述第一文本数据存在所述上下文关系时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述指令词库中的指令词;
当所述第一文本数据存在所述指令词库中的指令词时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性。
图6示出了本公开一个示例性实施例提供的电子设备600的结构框图。该电子设备600可以是:一种智能音箱。
通常,电子设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本公开中方法实施例提供的语音增强处理方法。
在一些实施例中,电子设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。
在一些实施例中,电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3或图4所述的语音数据处理方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种语音数据处理方法,其特征在于,所述方法包括:
对接收到的语音数据进行语音识别处理,获得语音识别文本,所述语音识别文本包含当前接收到的语音数据中的全部内容;根据预先设置的黑名单对所述语音识别文本进行匹配,所述黑名单中包括唤醒词、无实际含义的口头禅以及高频语气词,所述黑名单为经过个性化设置后的黑名单,所述黑名单还包括用户自定义输入的词语;从所述语音识别文本中删除与所述黑名单匹配的内容,获取所述语音数据对应的第一文本数据;
在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种,所述关联属性用于表示在固定的语义解析场景下,当前的第一文本数据与之前进行过语义解析的文本数据之间是否存在语义的连贯性,所述指令属性用于表示在固定的语义解析场景下,当前的第一文本数据是否存在可执行的指令,所述语境属性用于表示电子设备对当前的第一文本数据是否存在固定的响应;
当满足三种条件中的至少一种时,确定所述第一文本数据是有效数据;当不满足所述三种条件中的任一种时,确定所述第一文本数据是无效数据,所述三种条件分别是所述关联属性指示所述第一文本数据与前n条文本数据之间存在上下文关系、所述指令属性指示所述第一文本数据中存在指令词库中的指令词,以及所述语境属性指示所述第一文本数据中存在指定语境词库中的语境词,所述指定语境词库中包含语境词句以及语境词句对应的响应,所述语境词句对应的响应是固定的语音答复响应或者是固定的电子设备执行动作响应,n为大于或等于1的整数;
响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析生成所述第一文本数据对应的应答文本,所述第二层语义解析用于指示对有效数据进行完整的语义解析,所述第二层语义解析需要调用的自然语言处理比所述第一层语义解析需要调用的自然语言处理多;响应于所述第一文本数据的有效属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据,不再通过所述第二层语义解析生成所述应答文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,直接生成所述第一文本数据对应的应答文本。
3.根据权利要求1所述的方法,其特征在于,当所述有效性属性包括所述关联属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,获取当前运行的应用程序的属性以及所述第一文本数据的所述前n条文本数据;
结合当前运行的所述应用程序的属性对所述第一文本数据以及所述前n条文本数据进行上下文关系解析,获得所述关联属性,所述关联属性用于指示所述第一文本数据与所述前n条文本数据之间是否存在上下文关系。
4.根据权利要求1所述的方法,其特征在于,当所述有效性属性包括所述指令属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,包括:
获取当前运行的应用程序对应的指令词库;
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与所述指令词库进行匹配,获得第一匹配结果;
获取与所述第一匹配结果相对应的所述指令属性,所述指令属性用于指示所述第一文本数据中是否存在所述指令词库中的指令词。
5.根据权利要求1所述的方法,其特征在于,当所述有效性属性包括所述语境属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,包括:
在对所述第一文本数据进行自然语言处理过程中,将所述第一文本数据与所述指定语境词库进行匹配,获得第二匹配结果;
获取与所述第二匹配结果相对应的所述语境属性,所述语境属性用于指示所述第一文本数据中是否存在所述指定语境词库中的语境词。
6.根据权利要求1至5中任一所述的方法,其特征在于,当所述有效性属性包括所述关联属性、所述指令属性以及所述语境属性时,所述在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,包括:
对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述上下文关系;
当所述第一文本数据存在所述上下文关系时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据是否存在所述指令词库中的指令词;
当所述第一文本数据存在所述指令词库中的指令词时,对所述第一文本数据进行所述第一层语义解析,获得所述第一文本数据的所述有效性属性。
7.一种语音数据处理装置,其特征在于,所述装置包括:
文本获取模块包括语音识别子模块、文本匹配子模块和文本获得子模块,所述语音识别子模块,用于对接收到的语音数据进行语音识别处理,获得语音识别文本,所述语音识别文本包含当前接收到的语音数据中的全部内容;
所述文本匹配子模块,用于根据预先设置的黑名单对所述语音识别文本进行匹配,所述黑名单中包括唤醒词、无实际含义的口头禅以及高频语气词,所述黑名单为经过个性化设置后的黑名单,所述黑名单还包括用户自定义输入的词语;
所述文本获得子模块,用于从所述语音识别文本中删除与所述黑名单匹配的内容,获取所述语音数据对应的第一文本数据;
属性获取模块,用于在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种,所述关联属性用于表示在固定的语义解析场景下,当前的第一文本数据与之前进行过语义解析的文本数据之间是否存在语义的连贯性,所述指令属性用于表示在固定的语义解析场景下,当前的第一文本数据是否存在可执行的指令,所述语境属性用于表示电子设备对当前的第一文本数据是否存在固定的响应;
用于执行以下步骤的模块:当满足三种条件中的至少一种时,确定所述第一文本数据是有效数据;当不满足所述三种条件中的任一种时,确定所述第一文本数据是无效数据,所述三种条件分别是所述关联属性指示所述第一文本数据与前n条文本数据之间存在上下文关系、所述指令属性指示所述第一文本数据中存在指令词库中的指令词,以及所述语境属性指示所述第一文本数据中存在指定语境词库中的语境词,所述指定语境词库中包含语境词句以及语境词句对应的响应,所述语境词句对应的响应是固定的语音答复响应或者是固定的电子设备执行动作响应,n为大于或等于1的整数;
文本处理模块,包括第一处理子模块和第二处理子模块,所述第一处理子模块,用于响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析生成所述第一文本数据对应的应答文本,所述第二层语义解析用于指示对有效数据进行完整的语义解析,所述第二层语义解析需要调用的自然语言处理比所述第一层语义解析需要调用的自然语言处理多;
所述第二处理子模块,用于响应于所述第一文本数据的有效属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据,不再通过所述第二层语义解析生成所述应答文本。
8.根据权利要求7所述的装置,其特征在于,所述第一处理子模块,还用于响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,直接生成所述第一文本数据对应的应答文本。
9.一种语音数据处理装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
对接收到的语音数据进行语音识别处理,获得语音识别文本,所述语音识别文本包含当前接收到的语音数据中的全部内容;根据预先设置的黑名单对所述语音识别文本进行匹配,所述黑名单中包括唤醒词、无实际含义的口头禅以及高频语气词,所述黑名单为经过个性化设置后的黑名单,所述黑名单还包括用户自定义输入的词语;从所述语音识别文本中删除与所述黑名单匹配的内容,获取所述语音数据对应的第一文本数据;
在对所述第一文本数据进行自然语言处理过程中,对所述第一文本数据进行第一层语义解析,获得所述第一文本数据的有效性属性,所述有效性属性用于指示所述第一文本数据为有效数据或者无效数据,所述有效性属性包含关联属性、指令属性以及语境属性中的至少一种,所述关联属性用于表示在固定的语义解析场景下,当前的第一文本数据与之前进行过语义解析的文本数据之间是否存在语义的连贯性,所述指令属性用于表示在固定的语义解析场景下,当前的第一文本数据是否存在可执行的指令,所述语境属性用于表示电子设备对当前的第一文本数据是否存在固定的响应;
当满足三种条件中的至少一种时,确定所述第一文本数据是有效数据;当不满足所述三种条件中的任一种时,确定所述第一文本数据是无效数据,所述三种条件分别是所述关联属性指示所述第一文本数据与前n条文本数据之间存在上下文关系、所述指令属性指示所述第一文本数据中存在指令词库中的指令词,以及所述语境属性指示所述第一文本数据中存在指定语境词库中的语境词,所述指定语境词库中包含语境词句以及语境词句对应的响应,所述语境词句对应的响应是固定的语音答复响应或者是固定的电子设备执行动作响应,n为大于或等于1的整数;
响应于所述第一文本数据的有效性属性指示所述第一文本数据为有效数据,通过第二层语义解析生成所述第一文本数据对应的应答文本,所述第二层语义解析用于指示对有效数据进行完整的语义解析,所述第二层语义解析需要调用的自然语言处理比所述第一层语义解析需要调用的自然语言处理多;响应于所述第一文本数据的有效属性指示所述第一文本数据为无效数据,丢弃所述第一文本数据,不再通过所述第二层语义解析生成所述应答文本。
10.一种计算机设备可读存储介质,其特征在于,所述计算机设备可读存储介质中包含可执行指令,所述可执行指令由处理器调用执行,以实现上述权利要求1至6任一所述的语音数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010136193.9A CN111462741B (zh) | 2020-03-02 | 2020-03-02 | 语音数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010136193.9A CN111462741B (zh) | 2020-03-02 | 2020-03-02 | 语音数据处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462741A CN111462741A (zh) | 2020-07-28 |
CN111462741B true CN111462741B (zh) | 2024-02-02 |
Family
ID=71682470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010136193.9A Active CN111462741B (zh) | 2020-03-02 | 2020-03-02 | 语音数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462741B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347234A (zh) * | 2020-11-05 | 2021-02-09 | 北京羽扇智信息科技有限公司 | 文本显示方法及装置 |
CN112382279B (zh) * | 2020-11-24 | 2021-09-14 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112883742B (zh) * | 2021-03-09 | 2023-07-11 | 珠海格力电器股份有限公司 | 语义分析方法、装置、智能设备及存储介质 |
CN113613068A (zh) * | 2021-08-03 | 2021-11-05 | 北京字跳网络技术有限公司 | 视频的处理方法、装置、电子设备和存储介质 |
CN115457957A (zh) * | 2022-08-25 | 2022-12-09 | 维沃移动通信有限公司 | 语音信息显示方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067807A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本语义的可视化表示与获取方法 |
CA2621952A1 (en) * | 2008-03-06 | 2009-09-06 | Donald S. Bundock | System for excluding unwanted data from a voice recording |
CN105354180A (zh) * | 2015-08-26 | 2016-02-24 | 欧阳江 | 一种实现开放式语义交互服务的方法及系统 |
CN106326452A (zh) * | 2016-08-26 | 2017-01-11 | 宁波薄言信息技术有限公司 | 一种基于上下文的人机对话方法 |
CN106992001A (zh) * | 2017-03-29 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和系统 |
CN107665708A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN109325097A (zh) * | 2018-07-13 | 2019-02-12 | 海信集团有限公司 | 一种语音引导方法及装置、电子设备、存储介质 |
CN109326289A (zh) * | 2018-11-30 | 2019-02-12 | 深圳创维数字技术有限公司 | 免唤醒语音交互方法、装置、设备及存储介质 |
CN110334347A (zh) * | 2019-06-27 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 基于自然语言识别的信息处理方法、相关设备及存储介质 |
CN110706696A (zh) * | 2019-09-25 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音控制方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150073777A1 (en) * | 2013-09-06 | 2015-03-12 | Brian Assam | System and method for determining semantics and the probable meaning of words |
-
2020
- 2020-03-02 CN CN202010136193.9A patent/CN111462741B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067807A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本语义的可视化表示与获取方法 |
CA2621952A1 (en) * | 2008-03-06 | 2009-09-06 | Donald S. Bundock | System for excluding unwanted data from a voice recording |
CN105354180A (zh) * | 2015-08-26 | 2016-02-24 | 欧阳江 | 一种实现开放式语义交互服务的方法及系统 |
CN107665708A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN106326452A (zh) * | 2016-08-26 | 2017-01-11 | 宁波薄言信息技术有限公司 | 一种基于上下文的人机对话方法 |
CN106992001A (zh) * | 2017-03-29 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和系统 |
CN109325097A (zh) * | 2018-07-13 | 2019-02-12 | 海信集团有限公司 | 一种语音引导方法及装置、电子设备、存储介质 |
CN109326289A (zh) * | 2018-11-30 | 2019-02-12 | 深圳创维数字技术有限公司 | 免唤醒语音交互方法、装置、设备及存储介质 |
CN110334347A (zh) * | 2019-06-27 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 基于自然语言识别的信息处理方法、相关设备及存储介质 |
CN110706696A (zh) * | 2019-09-25 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音控制方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111462741A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462741B (zh) | 语音数据处理方法、装置及存储介质 | |
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
JP7242520B2 (ja) | 視覚支援スピーチ処理 | |
CN107909998B (zh) | 语音指令处理方法、装置、计算机设备和存储介质 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
CN107147618A (zh) | 一种用户注册方法、装置及电子设备 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
JP2003263188A (ja) | 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 | |
JP7158217B2 (ja) | 音声認識方法、装置及びサーバ | |
CN111919249A (zh) | 词语的连续检测和相关的用户体验 | |
WO2020233363A1 (zh) | 语音识别的方法、装置、电子设备和存储介质 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN109543192B (zh) | 自然语言解析方法、装置、设备及存储介质 | |
CN108632653A (zh) | 语音管控方法、智能电视及计算机可读存储介质 | |
CN108038243A (zh) | 音乐推荐方法、装置、存储介质及电子设备 | |
CN106649253A (zh) | 基于后验证的辅助控制方法及系统 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN114399995A (zh) | 语音模型的训练方法、装置、设备及计算机可读存储介质 | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN108108391A (zh) | 用于数据可视化的信息的处理方法以及装置 | |
CN110310632A (zh) | 语音处理方法及装置、以及电子设备 | |
CN109887490A (zh) | 用于识别语音的方法和装置 | |
CN111210824A (zh) | 语音信息处理方法、装置、电子设备及存储介质 | |
WO2019228140A1 (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN116013257A (zh) | 语音识别、语音识别模型训练方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |