CN104134439B - 一种习惯用语的获取方法、装置及系统 - Google Patents

一种习惯用语的获取方法、装置及系统 Download PDF

Info

Publication number
CN104134439B
CN104134439B CN201410374995.8A CN201410374995A CN104134439B CN 104134439 B CN104134439 B CN 104134439B CN 201410374995 A CN201410374995 A CN 201410374995A CN 104134439 B CN104134439 B CN 104134439B
Authority
CN
China
Prior art keywords
voice
byte
threshold
speech data
voice byte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410374995.8A
Other languages
English (en)
Other versions
CN104134439A (zh
Inventor
卢存洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jinli Communication Equipment Co Ltd
Original Assignee
Shenzhen Jinli Communication Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jinli Communication Equipment Co Ltd filed Critical Shenzhen Jinli Communication Equipment Co Ltd
Priority to CN201410374995.8A priority Critical patent/CN104134439B/zh
Publication of CN104134439A publication Critical patent/CN104134439A/zh
Application granted granted Critical
Publication of CN104134439B publication Critical patent/CN104134439B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种习惯用语的获取方法,包括:若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的语音数据,并将所述语音数据发送至服务器;所述服务器接收所述终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。本发明实施例还公开了一种习惯用语获取装置及系统。采用本发明,能够有针对性地获取相关用户的习惯用语。

Description

一种习惯用语的获取方法、装置及系统
技术领域
本发明涉及媒体技术领域,尤其涉及一种习惯用语的获取方法、装置及系统。
背景技术
日常生活中,人们不可避免地要与他人进行交流。然而,在与人交流过程中,人们都有自己的言辞习惯,因此在交流时可能携带一些习惯用语。其中,有的用语习惯如不文明言辞可能会破坏交流环境,比如在某个较为正式的场合中,无意识的冒出几句不文明的口头禅,则会影响人们之间交流的和谐性,可能给说话者带来负面影响,甚至造成一定的损失。因此,及时地掌握自身的言辞习惯成为关键。然而,现有技术中不存在对用户言辞习惯进行分析,而且也不能通过目前的通信工具,获取相关用户的言辞习惯。
发明内容
本发明实施例提供了一种习惯用语的获取方法、装置及系统,可有针对性地获取相关用户的习惯用语。
本发明实施例提供了一种习惯用语的获取方法,包括:
若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的语音数据,并将所述语音数据发送至服务器;
所述服务器接收所述终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;
所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
相应地,本发明实施例还提供了一种习惯用语获取方法,包括:
服务器接收终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,所述语音数据为所述终端在检测到用户发出的语音信号时所获取的与所述语音信号对应的语音数据;
所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
相应地,本发明实施例还提供了一种习惯用语获取装置,包括:
筛选单元,用于根据预设的语音字节阈值,从终端发送的语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,所述语音数据为所述终端在检测到用户发出的语音信号时所获取的与所述语音信号对应的语音数据;
获取单元,用于对所述筛选单元筛选出的目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
相应地,本发明实施例还提供了一种习惯用语获取系统,包括:终端和服务器;其中,
所述终端,用于若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据,并将所述语音数据发送至所述服务器;
所述服务器,用于接收所述终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
本发明实施例可在检测到用户发出的语音信号时,获得相应的语音数据,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种习惯用语的获取方法的流程示意图;
图2是本发明实施例的另一种习惯用语的获取方法的流程示意图;
图3是本发明实施例的一种获取目标语音字节的方法的流程示意图;
图4是本发明实施例的一种习惯用语的获取方法的交互示意图;
图5是本发明实施例的又一种习惯用语的获取方法的流程示意图;
图6是本发明实施例的一种习惯用语获取装置的结构示意图;
图7是本发明实施例的另一种习惯用语获取装置的结构示意图;
图8是本发明实施例的又一种习惯用语获取装置的结构示意图;
图9是本发明实施例的一种终端的结构示意图;
图10是本发明实施例的一种服务器的结构示意图;
图11是本发明实施例的一种习惯用语获取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例的一种习惯用语的获取方法的流程示意图,所述方法可具体应用于手机、平板电脑、可穿戴设备等终端设备中,或者可应用于服务器中,本发明实施例不做限定。具体的,所述方法包括:
S101:若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据。
具体实施例中,可通过检测当前是否存在用户发出的语音信号,并在检测到语音信号时,触发获取该语音信号对应的语音数据,比如通过录音获取得到该语音数据。
进一步的,在获取该语音数据之前,还可检测当前发出语音信号的用户是否为当前终端的合法用户,比如通过预设的语音样本进行匹配检测,其中,该语音样本为合法用户的声音片段,具体可由合法用户进行预先录音得到。
S102:根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节。
具体实施例中,可预先设置一个语音字节阈值,并根据该阈值从获取的语音数据中提取出目标语音字节。一般来说,用户每说出的一个字即对应一个语音字节,比如用户说出“你好吗”,则对应三个语音字节。
可选地,该获取的语音数据可以为一句话,并可根据该预设语音字节阈值从该句话的特定位置如开头和/或结尾处提取该阈值对应数目的语音字节作为目标语音字节。也就是说,可在每获取得到一句话,比如每录制得到一句话时,即可进行目标语音字节的筛选操作,从而筛选得到一定数量的目标语音字节。其中,每句话之间可以通过预设的停顿时间间隔进行区分。
进一步可选地,该获取的语音数据还可为一段话(即由多句话组成),则可根据预设的停顿时间间隔对该获取的语音数据进行分段处理,获得多个语音片段(一个语音片段可对应为一句话)。相应地,若该语音字节阈值设置为5,则可从各语音片段的特定位置提取出5个语音字节作为目标语音字节,比如提取该语音片段的前5个字节和/或后5个字节作为目标语音字节,从而得到多个目标语音字节。
S103:对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
具体的,若解析到各目标语音字节中存在相同,即某些目标语音字节重复出现,则计算该语音字节的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,将相应的目标语音字节作为该用户的习惯用语进行存储。
进一步的,还可将解析得到的用户习惯用语及该习惯用语的重复次数推送给当前终端。
进一步的,还可在后续检测到用户发出语音信号,且该语音信号对应的语音数据与该解析得到的习惯用语相匹配时,发出消息提示,以提醒用户注意相关言辞。
实施本发明实施例可在检测到用户发出的语音信号时,获取相应的语音数据,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
请参见图2,是本发明实施例的另一种习惯用语的获取方法的流程示意图,具体的,所述方法包括:
S201:若检测到用户发出的语音信号,则获取所述语音信号对应的声音属性。
S202:判断所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配。
具体实施例中,可预先设置一个语音样本,该语音样本为合法用户的声音片段,具体可由当前合法用户录制得到。
S203:若匹配,则获取所述语音信号对应的语音数据。
具体的,当检测到用户发出的语音信号即检测到有人说话时,可通过将该语音信号的声音属性与该语音样本的声音属性进行匹配对比,比如判断两者对应的音色及频率是否相匹配,从而确定当前用户身份的合法性,并在判断结果为匹配,即当前用户身份合法时,触发获取该语音信号对应的语音数据。其中,所述声音属性可包括语速、语调、音色或频率等等。
S204:根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段。
当确定当前发出语音信号的用户为合法用户时,则可获取相应的语音数据如通过对该语音数据进行录音得到。具体的,该语音数据可为一整段语音,即包含了多个语音片段,则可通过预设的分段方式对该语音数据进行分段处理,比如根据该语音数据中各语音字节之间的预设停顿时间间隔如200ms进行分段,得到语音片段(该一个语音片段可对应为一句话)。进一步的,若当前录制的语音数据仅为一句话,则可将该句话作为一个语音片段,即每录制一句话,则可将该句话作为一个语音片段,从而得到预设数量阈值的语音片段。
S205:根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
具体实施例中,还可预先设置一个语音字节阈值,根据该阈值从划分的各语音片段的特定位置如开头和/或结尾处提取出目标语音字节。举例来说,若该语音字节阈值设置为5,则可同时提取该语音片段的前5个字节和后5个字节作为目标语音字节,从而得到多个目标语音字节。
进一步的,可设置将所述语音字节阈值依次递减,比如从5依次递减到4、3、2、1,并重复执行从各语音片段的开头和结尾处提取出相应语音字节阈值对应数目的目标语音字节,直至该语音字节阈值变为0,即分别从各语音片段的开头和结尾提取出5个语音字节、4个语音字节、3个语音字节、2个语音字节以及1个语音字节作为目标语音字节,从而获取得到不同语音字节数目的目标语音字节。
S206:计算所述目标语音字节的重复次数,并记录所述重复次数。
S207:若检测得到所述重复次数达到预设的第二数量阈值,则将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,若解析到各目标语音字节中存在相同的目标语音字节,则计算该语音字节的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,将相应的目标语音字节作为该用户的习惯用语进行存储,以供用户进行解析结果查询或直接将该包含用户习惯用语的解析结果推送给用户。
可选地,可以预设一个提醒时间,比如每天晚上九点,并在该提醒时间到达时,将获取得到的解析结果如用户习惯用语及其对应的重复次数等结果信息推送给当前终端。
具体实施例中,还可预先设置一个禁止语音库,该语音库中可预置携带禁止指示的语音片段,即一些惯用的不文明言辞,如“靠”、“操”、“你妹”等语音字节。可选地,若解析所述习惯用语为需要禁止的语音字节,如某些不文明言辞,则可生成禁止指示,并将携带所述禁止指示的习惯用语作为禁止的语音片段加入到所述禁止语音库中。
进一步的,若检测到所述用户发出的语音信号对应的语音数据与所述禁止语音库中各语音片段的任一项相匹配,则可发出消息提示,以提醒用户注意相关言辞。具体的,该消息提示可包括短信、铃声或振动形式的提示,本发明实施例不作限定。
实施本发明实施例可在检测到当前发出语音信号的用户身份合法时触发获取相应的语音数据,通过对该语音数据进行分段处理得到语音片段并从各语音片段的开头和/或结尾处筛选出较有代表性的言辞,从而分析得到当前用户的习惯用语,并有针对性地将该习惯用语推送给相关用户,进一步的,还可设置在后续检测到用户说出该口头禅如不文明言辞时,对用户进行提醒。
请参见图3,是本发明实施例的一种获取目标语音字节的方法的流程示意图,具体的,所述方法包括:
S301:从所述语音片段中筛选出语音字节数目大于或等于预设的语音字节阈值的目标语音片段。
S302:若筛选出的所述目标语音片段的数量不小于预设的第一数量阈值,则分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
举例来说,若该语音字节阈值设置为5,语音片段对应的数量阈值设置为6,则可从该语音片段中筛选出语音字节大于或等于5的语音片段,并可在筛选达到6个语音片段时,触发提取该6个语音片段的前5个语音字节和/或后5个语音字节作为目标语音字节。
可选地,对于划分得到的语音片段中语音字节小于该预设的语音字节阈值的语音片段,可作为猜测不文明言辞的即将出现,将该小于语音字节阈值的语音片段与预置的禁止语音库中各语音片段进行对比,若检测到两者匹配,则可将该小于语音字节阈值的语音片段作为不文明言辞,并保存该不文明言辞及其出现次数,以便于用户在后续进行查询或将该出现的不文明言辞及其出现次数推送给当前用户。
S303:将所述语音字节阈值依次递减,并判断递减后的语音字节阈值是否为零。
进一步的,可设置将所述语音字节阈值依次递减,比如从5依次递减到4、3、2、1,并重复执行步骤S302,直至该语音字节阈值变为0,即分别从该筛选出的目标语音片段的开头和/或结尾提取出5、4、3、2以及1个语音字节作为目标语音字节。
S304:得到目标语音字节。
若该语音字节阈值变为0,则可表明结束目标语音字节的提取操作,从而获取得到不同语音字节数目的目标语音字节。
举例来说,若筛选得到以下语音片段:
1.这节课马上就要开始了哦。
2.然后同学们迅速回顾一下上节课所讲的内容哦。
3.好了先不看了。
4.然后打开你们的书翻到第五十五页。
5.然后看一下那里的提示内容哦。
6.这节课开始了哦。
其中,该语音片段对应的数量阈值为6,语音字节阈值设置为5,即可将连续累积的6句话作为一个比较单位,且每句话都满足语音字节大于或等于5。
对于上述的6句话,根据该语音字节阈值5,可分别从每句话的开头和结尾处提取出“这节课马上”和“要开始了哦”、“然后同学们”和“讲的内容哦”、“好了先不看”和“了先不看了”、“然后打开你”和“第五十五页”、“然后看一下”和“提示内容哦”、“这节课开始”和“课开始了哦”对应的语音字节作为目标语音字节,并对提取出的各目标语音字节进行解析。
具体实施例中,可通过分别比较提取出的每句话开头的语音字节及结尾处的语音字节来对各目标语音字节进行解析。比如可比较首语句即每句话的开头,即“这节课马上”、“然后同学们”、“好了先不看”、“然后打开你”、“然后看一下”、“这节课开始”,发现6个首语句中没有一个是相同的;进一步的,比较尾语句即每句话的结尾处,即“要开始了哦”、“讲的内容哦”、“了先不看了”、“第五十五页”、“提示内容哦”、“课开始了哦”,发现六个尾语句中没有一个是相同的,则可设置将该语音字节阈值由5递减为4。
根据该语音字节阈值4,则可比较首语句“这节课马”、“然后同学”、“好了先不”、“然后打开”、“然后看一”、“这节课开”,发现六个首语句中没有一个是相同的;进一步的,比较尾语句“开始了哦”、“的内容哦”、“先不看了”、“五十五页”、“示内容哦”、“开始了哦”,发现六个尾语句中没有一个是相同的,则可设置将该语音字节阈值由4递减为3,并以此类推。
直到将该语音字节阈值递减为2,发现6句话的首语句中“然后”出现三次,此时保存“然后”对应的语音字节,记录相应的重复次数3,即出现3次。
最后将该语音字节阈值由2递减为1,发现首语句中“这”出现两次,此时保存“这”对应的语音字节,记录其重复次数2;“然”字出现三次,记录其重复次数3;还可发现尾语句中“哦”出现四次,保存“哦”对应的语音字节,记录重复次数为4。进一步的,该“然”的重复次数与语音字节阈值为2时的“然后”的重复次数相同,均为3,即不高于“然后”的出现次数,且“然后”包含“然”,则可直接舍弃该“然”的相关记录,否则记录“然”及其重复次数。
综上分析得到,此次解析到的用户习惯用语即口头禅有“这”,“然后”和“哦”。进一步的,若将该重复次数对应的数量阈值设置为3,则可将“然后”和“哦”作为该用户的习惯用语进行存储。
进一步的,可对后续的语音字节大于或等于5的6句话进行上述的解析过程,并获取包含用户口头禅的解析结果,若监测到的口头禅和前面的口头禅有一致的,则可累计该口头禅的出现次数,并在预设时间范围内超过一定次数,比如3个小时内出现超过20次时,标记为严重警告,发出消息通知当前用户。
实施本发明实施例可通过筛选出超过一定语音字节数的语音片段,并按照预设字节数的降序,从各语音片段的开头和结尾处分别提取对应字节数的目标语音字节,解析各目标语音字节中是否存在重复的字节,从而分析得到当前用户的习惯用语,针对性较强。
请参加图4,是本发明实施例的一种习惯用语的获取方法的交互示意图,所述方法包括:
S401:若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的语音数据。
具体实施例中,可通过检测当前是否存在用户发出的语音信号,并在检测到语音信号时,触发获取该语音信号对应的语音数据,比如通过录音获取得到该语音数据。
可选地,若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的语音数据,可具体为:若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的声音属性;所述终端判断所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配,所述语音样本为合法用户的声音片段,所述声音属性包括语速、语调、音色及频率中的任一项或多项;若所述终端判断结果为匹配,即检测到当前用户为合法用户时,所述终端触发获取所述语音信号对应的语音数据。
S402:终端将所述语音数据发送至服务器。
S403:服务器接收所述终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节。
具体实施例中,可预先设置一个语音字节阈值,并根据该阈值从获取的语音数据中提取出目标语音字节。
可选地,所述服务器根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,可具体为:所述服务器根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;所述服务器根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
需要说明的是,该S403获取目标语音字节的步骤也可由终端执行,即可由终端根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节之后,将获取的目标语音字节发送至服务器,以使服务器对所述目标语音字节进行解析。
S404:服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
可选地,所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果,可具体为:所述服务器计算所述目标语音字节的重复次数,并记录所述重复次数;若所述服务器检测得到所述重复次数达到预设的数量阈值,则所述服务器将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,若解析到各目标语音字节中存在相同,即某些目标语音字节重复出现,则计算该语音字节的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,将相应的目标语音字节作为该用户的习惯用语进行存储。
S405:服务器将所述解析结果推送给终端。
实施本发明实施例可在检测到用户发出的语音信号时,获取相应的语音数据,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
进一步的,所述服务器还可将解析得到的用户习惯用语及该习惯用语的重复次数等解析结果推送给当前终端。
实施本发明实施例可在检测到用户发出的语音信号时,获取相应的语音数据,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
请参见图5,是本发明实施例的又一种习惯用语的获取方法的流程示意图,所述方法可具体应用于服务器中,具体的,所述方法包括:
S501:服务器接收终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节。
其中,所述语音数据为所述终端在检测到用户发出的语音信号时所获取的与所述语音信号对应的语音数据。
具体实施例中,所述服务器可根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,并根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。其中,所述语音数据包括至少一个语音片段;
具体的,服务器可预先设置一个语音字节阈值,并根据该阈值从划分的各语音片段的特定位置如开头和/或结尾处提取出目标语音字节。举例来说,若该语音字节阈值设置为5,则可同时提取该语音片段的前5个字节和后5个字节作为目标语音字节,从而得到多个目标语音字节。
进一步的,可设置将所述语音字节阈值依次递减,比如从5依次递减到4、3、2、1,并重复执行从各语音片段的开头和结尾处提取出相应语音字节阈值对应数目的目标语音字节,直至该语音字节阈值变为0,即分别从各语音片段的开头和结尾提取出5个语音字节、4个语音字节、3个语音字节、2个语音字节以及1个语音字节作为目标语音字节,从而获取得到不同语音字节数目的目标语音字节。
S502:所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
具体实施例中,所述服务器可计算所述目标语音字节的重复次数,并记录所述重复次数;若所述服务器检测得到所述重复次数达到预设的数量阈值,则所述服务器将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,若解析到各目标语音字节中存在相同的目标语音字节,则计算该语音字节的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,将相应的目标语音字节作为该用户的习惯用语进行存储,以供用户进行解析结果查询或直接将该包含用户习惯用语的解析结果推送给用户。
实施本发明实施例服务器可在接收到终端发送的语音数据时,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
请参见图6,是本发明实施例的一种习惯用语获取装置的结构示意图,所述装置可具体设置于手机、平板电脑、可穿戴设备等终端设备中,或者设置于服务器中,本发明实施例不做限定。具体的,所述装置包括第一获取单元11、筛选单元12以及第二获取单元13。其中,
第一获取单元11,用于若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据。
具体实施例中,第一获取单元11可通过检测当前是否存在用户发出的语音信号,并在检测到语音信号时,触发获取该语音信号对应的语音数据,比如通过录音获取得到该语音数据。
筛选单元12,用于根据预设的语音字节阈值,从所述第一获取单元11获取的语音数据中筛选出所述语音字节阈值对应数目的目标语音字节。
具体实施例中,可预先设置一个语音字节阈值,筛选单元12可根据该阈值从获取的语音数据中提取出目标语音字节。一般来说,用户每说出的一个字即对应一个语音字节,比如用户说出“你好吗”,则对应三个语音字节。
可选地,该第一获取单元11获取的语音数据可以为一句话,筛选单元12可根据该预设阈值从该句话的特定位置如开头和/或结尾处提取该阈值对应数目的语音字节作为目标语音字节。也就是说,可在每获取得到一句话,比如每录制得到一句话时,即可通过筛选单元12进行目标语音字节的筛选操作,从而筛选得到一定数量的目标语音字节。
进一步可选地,该第一获取单元11获取的语音数据还可为一段话(即由多句话组成),筛选单元12可根据预设的停顿时间间隔对该录制的语音数据进行分段处理,获得多个语音片段(即一个语音片段可对应为一句话)。相应地,若该语音字节阈值设置为5,则筛选单元12可从各语音片段的特定位置提取出5个语音字节作为目标语音字节,比如提取该语音片段的前5个字节和/或后5个字节作为目标语音字节,从而得到多个目标语音字节。
第二获取单元13,用于对所述筛选单元12筛选出的目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
具体的,若第二获取单元13解析到各目标语音字节中存在相同,即某些目标语音字节重复出现,则可计算该语音字节的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,将相应的目标语音字节作为该用户的习惯用语进行存储。
进一步的,该第二获取单元13还可将解析得到的用户习惯用语及该习惯用语的重复次数推送给当前终端。
实施本发明实施例可在检测到用户发出的语音信号时,对相应的语音数据进行录音,通过对从录制的语音数据筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
请参见图7,是本发明实施例的另一种习惯用语获取装置的结构示意图,所述装置包括上述习惯用语获取装置的第一获取单元11、筛选单元12以及第二获取单元13,进一步的,在本发明实施例中,所述第一获取单元11可包括:
信息获取单元111,用于若检测到用户发出的语音信号,则获取所述语音信号对应的声音属性;
判断单元112,用于判断所述信息获取单元111获取的所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配。
其中,所述声音属性包括语速、语调、音色及频率中的任一项或多项。
具体实施例中,可预先设置一个语音样本,该语音样本为合法用户的声音片段,具体可由当前合法用户录制得到。
数据获取单元113,用于在所述判断单元112判断结果为匹配时,获取所述语音信号对应的语音数据。
具体的,当信息获取单元111检测到用户发出的语音信号即检测到有人说话时,可获取该语音信号对应的声音属性,并通过判断单元112将该语音信号的声音属性与该语音样本的声音属性进行匹配对比,比如判断两者对应的音色及频率是否相匹配,从而确定当前用户身份的合法性,并在判断结果为匹配,即当前用户身份合法时,通过数据获取单元113获取该语音信号对应的语音数据。
进一步的,在本发明实施例中,所述筛选单元12可包括:
数据分段单元121,用于根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段。
其中,所述语音数据包括至少一个语音片段。
当判断单元112判断结果为匹配,即当前发出语音信号的用户为合法用户时,则可通过数据获取单元113获取相应的语音数据,比如通过数据获取单元113对该语音数据进行录音。具体的,该语音数据可为一整段语音,即包含了多个语音片段,则数据分段单元121可通过预设的分段方式对该语音数据进行分段处理,比如根据该语音数据中各语音字节之间的停顿时间间隔如200ms进行分段,得到语音片段(该一个语音片段可对应为一句话)。进一步的,若通过第一获取单元11录制的语音数据仅为一句话,则数据分段单元121可将该句话作为一个语音片段,即第一获取单元11每录制一句话,则数据分段单元121可将该句话作为一个语音片段,从而得到预设数量阈值的语音片段。
数据提取单元122,用于根据预设的语音字节阈值,分别从所述数据分段单元121划分的语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
具体实施例中,数据提取单元122可根据预设的语音字节阈值从划分的各语音片段的特定位置如开头和/或结尾处提取出目标语音字节。举例来说,若该语音字节阈值设置为5,则数据提取单元122可同时提取该语音片段的前5个字节和后5个字节作为目标语音字节,从而得到多个目标语音字节。
可选地,所述数据提取单元122可具体用于:
从所述语音片段中筛选出语音字节数目大于或等于预设的语音字节阈值的目标语音片段;若筛选出的所述目标语音片段的数量不小于预设的第一数量阈值,则分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
举例来说,若该语音字节阈值设置为5,语音片段对应的数量阈值设置为6,则数据提取单元122可从该语音片段中筛选出语音字节大于或等于5的语音片段,并可在筛选达到6个语音片段时,通过语音获取子单元1222提取该6个语音片段的前5个语音字节和/或后5个语音字节作为目标语音字节。
进一步的,在本发明实施例中,所述装置还可包括:
控制单元14,用于控制将所述语音字节阈值依次递减,并通知数据提取单元122分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节,直至所述语音字节阈值为零。
进一步的,控制单元14可设置将所述语音字节阈值依次递减,比如从5依次递减到4、3、2、1,并通知数据提取单元122从各语音片段的开头和结尾处提取出相应语音字节阈值对应数目的目标语音字节,直至该语音字节阈值变为0,即通知数据提取单元122分别从各语音片段的开头和结尾提取出5个语音字节、4个语音字节、3个语音字节、2个语音字节以及1个语音字节作为目标语音字节,从而获取得到不同语音字节数目的目标语音字节。
进一步的,在本发明实施例中,所述第二获取单元13可包括:
计算单元131,用于计算所述目标语音字节的重复次数,并记录所述重复次数;
信息存储单元132,用于若检测得到所述重复次数达到预设的第二数量阈值,则将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,若解析到各目标语音字节中存在相同的目标语音字节,则可通过计算单元131计算该语音数据的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,通过信息存储单元132将相应的目标语音字节作为该用户的习惯用语进行存储,以供用户进行解析结果查询或直接将该包含用户习惯用语的解析结果推送给用户。
实施本发明实施例可在检测到当前发出语音信号的用户身份合法时触发获取相应的语音数据,通过对该语音数据进行分段处理得到语音片段并从各语音片段的开头和结尾处筛选出较有代表性的言辞,从而分析得到当前用户的习惯用语,并有针对性地将该习惯用语推送给相关用户。
请参见图8,是本发明实施例的又一种习惯用语获取装置的结构示意图,所述装置可具体设置于服务器中,具体的,所述装置包括筛选单元21以及获取单元22。其中,
所述筛选单元21,用于根据预设的语音字节阈值,从终端发送的语音数据中筛选出所述语音字节阈值对应数目的目标语音字节。
其中,所述语音数据为所述终端在检测到用户发出的语音信号时所获取的与所述语音信号对应的语音数据。
具体实施例中,可预先设置语音字节阈值,筛选单元12可根据该阈值从获取的语音数据中提取出目标语音字节。
所述获取单元22,用于对所述筛选单元21筛选出的目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
进一步的,在本发明实施例中,所述筛选单元21可包括:
数据分段单元211,用于根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
数据提取单元212,用于根据预设的语音字节阈值,分别从所述数据分段单元211划分的语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
具体实施例中,数据提取单元212可根据预设的语音字节阈值从数据分段单元211划分的各语音片段的特定位置如开头和/或结尾处提取出目标语音字节。举例来说,若该语音字节阈值设置为5,则数据提取单元212可同时提取该语音片段的前5个字节和后5个字节作为目标语音字节,从而得到多个目标语音字节。
可选地,所述数据提取单元212可具体用于:
从所述语音片段中筛选出语音字节数目大于或等于预设的语音字节阈值的目标语音片段;若筛选出的所述目标语音片段的数量不小于预设的第一数量阈值,则分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
进一步的,在本发明实施例中,所述获取单元22可包括:
计算单元221,用于计算所述目标语音字节的重复次数,并记录所述重复次数;
信息存储单元222,用于若检测得到所述重复次数达到预设的数量阈值,则将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,若解析到各目标语音字节中存在相同的目标语音字节,则可通过计算单元221计算该语音数据的出现次数,即重复次数,并在该重复次数超过预设的数量阈值,比如说5次时,通过信息存储单元222将相应的目标语音字节作为该用户的习惯用语进行存储,以供用户进行解析结果查询或直接将该包含用户习惯用语的解析结果推送给用户。
实施本发明实施例服务器可在接收到终端发送的语音数据时,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
进一步的,请参见图9,是本发明实施例的一种终端的结构示意图。如图9所示,该终端包括:至少一个处理器100,例如CPU,至少一个用户接口300,存储器400,至少一个通信总线200。其中,通信总线200用于实现这些组件之间的连接通信。其中,用户接口300可以包括显示屏(Display)、键盘(Keyboard),可选用户接口300还可以包括标准的有线接口、无线接口。存储器400可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器400可选的还可以是至少一个位于远离前述处理器100的存储装置。其中处理器100可以结合图6和图7所描述的习惯用语获取装置,存储器400中存储一组程序代码,且处理器100调用存储器400中存储的程序代码,用于执行以下操作:
若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据;
根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;
对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
在可选实施例中,处理器100调用存储器400中存储的程序代码在检测到用户发出的语音信号时,获取所述语音信号对应的语音数据,具体可以为:
若检测到用户发出的语音信号,则获取所述语音信号对应的声音属性;
判断所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配,所述语音样本由合法用户录制得到,所述声音属性包括语速、语调、音色及频率中的任一项或多项;
若匹配,则获取所述语音信号对应的语音数据。
进一步可选的,处理器100调用存储器400中存储的程序代码根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,具体可以为:
根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
在可选实施例中,处理器100调用存储器400中存储的程序代码根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节,具体可以为:
从所述语音片段中筛选出语音字节数目大于或等于预设的语音字节阈值的目标语音片段;
若筛选出的所述目标语音片段的数量不小于预设的第一数量阈值,则分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
在可选实施例中,处理器100还可以执行以下步骤:
将所述语音字节阈值依次递减;
重复执行分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节步骤,直至所述语音字节阈值为零。
在可选实施例中,处理器100调用存储器400中存储的程序代码对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果,具体可以为:
计算所述目标语音字节的重复次数,并记录所述重复次数;
若检测得到所述重复次数达到预设的第二数量阈值,则将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,本实施例中介绍的终端可以用以实施本发明结合图1至图4介绍的习惯用语获取的方法实施例中的部分或全部流程。
进一步的,请参见图10,是本发明实施例的一种服务器的结构示意图。如图10所示,该服务器包括:至少一个处理器500,例如CPU,至少一个用户接口700,存储器800,至少一个通信总线600。其中,通信总线600用于实现这些组件之间的连接通信。其中,用户接口700可以包括标准的有线接口、无线接口。存储器800可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器800可选的还可以是至少一个位于远离前述处理器500的存储装置。其中处理器500可以结合图6和图7所描述的习惯用语获取装置,存储器800中存储一组程序代码,且处理器500调用存储器800中存储的程序代码,用于执行以下操作:
若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据;
根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;
对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
在可选实施例中,处理器500调用存储器800中存储的程序代码在检测到用户发出的语音信号时,获取所述语音信号对应的语音数据,具体可以为:
若检测到用户发出的语音信号,则获取所述语音信号对应的声音属性;
判断所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配,所述语音样本由合法用户录制得到,所述声音属性包括语速、语调、音色及频率中的任一项或多项;
若匹配,则获取所述语音信号对应的语音数据。
进一步可选的,处理器500调用存储器800中存储的程序代码根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,具体可以为:
根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
在可选实施例中,处理器500调用存储器800中存储的程序代码根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节,具体可以为:
从所述语音片段中筛选出语音字节数目大于或等于预设的语音字节阈值的目标语音片段;
若筛选出的所述目标语音片段的数量不小于预设的第一数量阈值,则分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
在可选实施例中,处理器500还可以执行以下步骤:
将所述语音字节阈值依次递减;
重复执行分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节步骤,直至所述语音字节阈值为零。
在可选实施例中,处理器500调用存储器800中存储的程序代码对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果,具体可以为:
计算所述目标语音字节的重复次数,并记录所述重复次数;
若检测得到所述重复次数达到预设的第二数量阈值,则将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
具体的,本实施例中介绍的服务器可以用以实施本发明结合图1至图4介绍的习惯用语获取的方法实施例中的部分或全部流程。
进一步的,请参见图11,是本发明实施例的一种习惯用语获取系统的结构示意图,所述系统包括:终端1和服务器2;其中,
所述终端1,用于若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据,并将所述语音数据发送至所述服务器2;
所述服务器2,用于接收所述终端1发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果。
在可选实施例中,所述终端1,还可用于若检测到用户发出的语音信号,则获取所述语音信号对应的声音属性;判断所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配,所述语音样本为合法用户的声音片段,所述声音属性包括语速、语调、音色及频率中的任一项或多项;若匹配,则获取所述语音信号对应的语音数据。
在可选实施例中,所述服务器2,还可用于根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
具体的,服务器2可从所述语音片段中筛选出语音字节数目大于或等于预设的语音字节阈值的目标语音片段,并在筛选出的所述目标语音片段的数量不小于预设的第一数量阈值,比如6个时,分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节。
进一步的,服务器2可控制将所述语音字节阈值依次递减,并重复执行分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节的步骤,直至所述语音字节阈值为零,从而获取得到多个不同语音字节数目的目标语音字节。
在可选实施例中,所述服务器2,还可用于计算所述目标语音字节的重复次数,并记录所述重复次数;若检测得到所述重复次数达到预设的第二数量阈值,则所述服务器2将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
实施本发明实施例可在检测到用户发出的语音信号时,获取相应的语音数据,通过对该语音数据中筛选出的目标语音字节进行分析,从而得到当前用户的习惯用语,可有针对性地获取相关用户的习惯用语,灵活性较强。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本发明所必须的。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的模块或单元可以根据实际需要进行合并、划分和删减。
本发明实施例中所述模块或单元,可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
以上对本发明实施例所提供的文本信息显示方法及终端进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种习惯用语获取方法,其特征在于,包括:
若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的语音数据,并将所述语音数据发送至服务器;
所述服务器接收所述终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;
所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果;
其中,所述服务器根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,包括:
所述服务器根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
所述服务器根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节;
所述服务器将所述语音字节阈值依次递减,并重复执行从各语音片段的开头或结尾处提取出语音字节阈值对应数目的目标语音字节的步骤,直至所述语音字节阈值为0。
2.如权利要求1所述的方法,其特征在于,所述若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的语音数据,包括:
若终端检测到用户发出的语音信号,则所述终端获取所述语音信号对应的声音属性;
所述终端判断所述语音信号对应的声音属性是否与预置的语音样本对应的声音属性相匹配,所述语音样本为合法用户的声音片段,所述声音属性包括语速、语调、音色及频率中的任一项或多项;
若所述终端判断结果为匹配,则所述终端获取所述语音信号对应的语音数据。
3.如权利要求1所述的方法,其特征在于,所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果,包括:
所述服务器计算所述目标语音字节的重复次数,并记录所述重复次数;
若所述服务器检测得到所述重复次数达到预设的第二数量阈值,则所述服务器将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
4.一种习惯用语获取方法,其特征在于,包括:
服务器接收终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,所述语音数据为所述终端在检测到用户发出的语音信号时所获取的与所述语音信号对应的语音数据;
所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果;
其中,所述服务器根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,包括:
所述服务器根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
所述服务器根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节;
所述服务器将所述语音字节阈值依次递减,并重复执行从各语音片段的开头或结尾处提取出语音字节阈值对应数目的目标语音字节的步骤,直至所述语音字节阈值为0。
5.如权利要求4所述的方法,其特征在于,所述服务器对目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果,包括:
所述服务器计算所述目标语音字节的重复次数,并记录所述重复次数;
若所述服务器检测得到所述重复次数达到预设的数量阈值,则所述服务器将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
6.一种习惯用语获取装置,其特征在于,包括:
筛选单元,用于根据预设的语音字节阈值,从终端发送的语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,所述语音数据为所述终端在检测到用户发出的语音信号时所获取的与所述语音信号对应的语音数据;
获取单元,用于对所述筛选单元筛选出的目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果;
所述筛选单元包括:
数据分段单元,用于根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
数据提取单元,用于根据预设的语音字节阈值,分别从所述数据分段单元划分的语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节;
所述装置还可包括:
控制单元,用于控制将所述语音字节阈值依次递减,并通知所述数据提取单元分别从所述目标语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节,直至所述语音字节阈值为0。
7.如权利要求6所述的装置,其特征在于,所述获取单元包括:
计算单元,用于计算所述目标语音字节的重复次数,并记录所述重复次数;
信息存储单元,用于若检测得到所述重复次数达到预设的数量阈值,则将所述目标语音字节作为所述用户的习惯用语,并保存所述习惯用语。
8.一种习惯用语获取系统,其特征在于,包括:终端和服务器;其中,
所述终端,用于若检测到用户发出的语音信号,则获取所述语音信号对应的语音数据,并将所述语音数据发送至所述服务器;
所述服务器,用于接收所述终端发送的语音数据,并根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节;对所述目标语音字节进行解析,并获取包含所述用户的习惯用语的解析结果;
其中,所述服务器根据预设的语音字节阈值,从所述语音数据中筛选出所述语音字节阈值对应数目的目标语音字节,包括:
所述服务器根据预设的停顿时间间隔对所述语音数据进行分段,获得语音片段,所述语音数据包括至少一个语音片段;
所述服务器根据预设的语音字节阈值,分别从所述语音片段的开头或结尾处提取出所述语音字节阈值对应数目的语音字节作为目标语音字节;
所述服务器将所述语音字节阈值依次递减,并重复执行从各语音片段的开头或结尾处提取出语音字节阈值对应数目的目标语音字节的步骤,直至所述语音字节阈值为0。
CN201410374995.8A 2014-07-31 2014-07-31 一种习惯用语的获取方法、装置及系统 Expired - Fee Related CN104134439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410374995.8A CN104134439B (zh) 2014-07-31 2014-07-31 一种习惯用语的获取方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410374995.8A CN104134439B (zh) 2014-07-31 2014-07-31 一种习惯用语的获取方法、装置及系统

Publications (2)

Publication Number Publication Date
CN104134439A CN104134439A (zh) 2014-11-05
CN104134439B true CN104134439B (zh) 2018-01-12

Family

ID=51807090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410374995.8A Expired - Fee Related CN104134439B (zh) 2014-07-31 2014-07-31 一种习惯用语的获取方法、装置及系统

Country Status (1)

Country Link
CN (1) CN104134439B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553828A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 一种网络社区语音服务的智能语音警告方法
CN105895088A (zh) * 2016-05-27 2016-08-24 京东方科技集团股份有限公司 智能可穿戴设备及语音纠错系统
CN106338923A (zh) * 2016-09-14 2017-01-18 上海百芝龙网络科技有限公司 一种智能家居控制系统
CN106448653A (zh) * 2016-09-27 2017-02-22 惠州市德赛工业研究院有限公司 一种可穿戴智能终端
CN106782543A (zh) * 2017-03-24 2017-05-31 联想(北京)有限公司 一种信息处理方法和电子设备
CN107481718B (zh) * 2017-09-20 2019-07-05 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN109119076B (zh) * 2018-08-02 2022-09-30 重庆柚瓣家科技有限公司 一种老人用户交流习惯的收集系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN102915730A (zh) * 2012-10-19 2013-02-06 东莞宇龙通信科技有限公司 语音处理方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203273A (ja) * 1986-03-04 1987-09-07 Toshiba Corp 機械翻訳システム
US7818179B2 (en) * 2004-11-12 2010-10-19 International Business Machines Corporation Devices and methods providing automated assistance for verbal communication
CN102316200A (zh) * 2010-07-07 2012-01-11 英业达股份有限公司 手持式电子装置响铃调整方法及应用其的手持式电子装置
CN102480561A (zh) * 2010-11-30 2012-05-30 希姆通信息技术(上海)有限公司 不雅语音屏蔽装置及其方法
CN102592592A (zh) * 2011-12-30 2012-07-18 深圳市车音网科技有限公司 语音数据的提取方法和装置
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
CN103778110B (zh) * 2012-10-25 2016-08-31 三星电子(中国)研发中心 简繁体汉字的转换方法及系统
CN103903621A (zh) * 2012-12-26 2014-07-02 联想(北京)有限公司 一种语音识别的方法及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN102915730A (zh) * 2012-10-19 2013-02-06 东莞宇龙通信科技有限公司 语音处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"utterance-level multimodal sentiment analysis";Louis-Philippe Morency等;《Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics》;20130809;第975页右栏倒数第2段 *
"口头禅:类别、机制与功能";厉杰;《中国优秀硕士学位论文全文数据库哲学与人文科学辑》;20130815(第08期);第4页第1段、第24页第2.3.1节第1段、第32页第1-13行、第62页、第115-117页 *

Also Published As

Publication number Publication date
CN104134439A (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
CN104157286B (zh) 一种习惯用语的获取方法及装置
CN104134439B (zh) 一种习惯用语的获取方法、装置及系统
Grant TXT 4N6: method, consistency, and distinctiveness in the analysis of SMS text messages
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN105931644B (zh) 一种语音识别方法及移动终端
CN109522419B (zh) 会话信息补全方法及装置
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
CN109192202B (zh) 语音安全识别方法、装置、计算机设备及存储介质
KR102081495B1 (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
WO2017076314A1 (zh) 自适应识别骚扰电话的处理方法及系统
US20150172243A1 (en) Compliance mechanism for messaging
CN110047481A (zh) 用于语音识别的方法和装置
CN110444198A (zh) 检索方法、装置、计算机设备和存储介质
EP3598444B1 (en) Method and system for muting classified information from an audio
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
CN107123418A (zh) 一种语音消息的处理方法及移动终端
CN108766431A (zh) 一种基于语音识别的自动唤醒方法及电子设备
ES2751375T3 (es) Análisis lingüístico basado en una selección de palabras y dispositivo de análisis lingüístico
CN110459223A (zh) 数据跟踪处理方法、设备、存储介质及装置
KR102166102B1 (ko) 개인 정보 보호를 위한 장치 및 기록 매체
CN112397052A (zh) Vad断句测试方法、装置、计算机设备及存储介质
CN106656738A (zh) 一种未读消息提示方法及终端
CN106156022B (zh) 一种信息处理方法及电子设备
CN111787012B (zh) 语音信号处理方法及实现此的终端和服务器
CN114038487A (zh) 一种音频提取方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180112

Termination date: 20200731

CF01 Termination of patent right due to non-payment of annual fee