CN108877786A - 指令识别方法 - Google Patents
指令识别方法 Download PDFInfo
- Publication number
- CN108877786A CN108877786A CN201810696925.2A CN201810696925A CN108877786A CN 108877786 A CN108877786 A CN 108877786A CN 201810696925 A CN201810696925 A CN 201810696925A CN 108877786 A CN108877786 A CN 108877786A
- Authority
- CN
- China
- Prior art keywords
- instruction
- interrogative
- user
- identification method
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种指令识别方法,具体包括以下步骤:将用户的语音转换为文字;在文字中搜索指令关键词、否定词以及疑问词;综合指令关键词、否定词以及疑问词分析判断用户的真实指令。本申请指令识别方法,能够智能识别用户所发出的指令,提高指令识别的准确度;能够识别儿童或语言有障碍的用户所发出的指令,提高了指令识别的成功率。
Description
技术领域
本申请涉及指令识别技术领域,尤其涉及一种指令识别方法。
背景技术
现有指令语义识别分为两部分,第一部分是语音识别,把用户语音识别成文字,第二部分是语义识别,把文字识别成可执行的指令。目前第一部分语音识别技术已经比较成熟,识别率很高。而第二部分语义识别则准确率不高。指令的语义识别目前主要依靠对关键词的匹配,首先预设一些关键词如:打开声音,关闭程序等。当用户说话文字中包含了这些关键词时,则程序根据预设的规则,执行相应的指令。人类语言,特别是中文的复杂度较高,如果用户的语音指令是标准的指令,则很好识别,但是当我们面对家庭用户,特别是家庭中的孩子时,则成功率就变的很低。小朋友说话时,很难保证是标准的指令,经常存在前后矛盾,包含多条指令等情况。这样会让传统的关键词匹配方式无所适从或错误频频。
发明内容
本申请的目的在于提供一种指令识别方法,能够根据判断语音文字的关键词、否定词以及语句中的疑问词的优先级,来综合判断用户所要表达的实际指令。
为达到上述目的,本申请提供一种指令识别方法,具体包括以下步骤:将用户的语音转换为文字;在文字中搜索指令关键词、否定词以及疑问词;综合指令关键词、否定词以及疑问词分析判断用户的真实指令。
如上的,其中,若用户为儿童,机顶盒开启摄像头进行用户口型的采集。
如上的,其中,包括语言文字库,根据采集的口型在语言文字库中寻找相对应的文字,将用户的语音转化为文字。
如上的,其中,指令关键词为预存于指令关键词库中。
如上的,其中,在指令关键词的前序和后续文字中搜索否定词,否定词所涉及的词语预存于否定词库中。
如上的,其中,在指令关键词的前序和后续文字中搜索疑问词。
如上的,其中,疑问词所涉及的词语预存于疑问词库中。
如上的,其中,若存在疑问词,则寻找疑问词所在的用户语音中的语音片段,通过分析语音片段中的声调以及判断疑问词是否存在于句尾,综合分析语音中是否存在真实的疑问句。
如上的,其中,疑问词是否真实的判断是经过词音长度、语调和重音方面综合进行判断的。
如上的,其中,语言文字库、指令关键词库、否定词库以及疑问词库设置在机顶盒中。
本申请实现的有益效果如下:
(1)本申请的指令识别方法,能够智能识别用户所发出的指令,提高指令识别的准确度。
(2)本申请的指令识别方法能够识别儿童或语言有障碍的用户所发出的指令,提高了指令识别的成功率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请提供的指令处理方法流程图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的指令识别方法能够根据判断语音文字的关键词、否定词以及语句中的疑问词的优先级,来综合判断用户所要表达的实际指令。
其中用户中有成人也有儿童,而儿童因为年龄小、吐字不清而发出的指令难以理解,本申请不仅能够很好的分析成人的语音指令,也能智能识别儿童发出的语音指令。
如图1所示,本申请的指令识别方法具体包括以下步骤:
步骤S110:将用户的语音转换为文字。
示例性地,可根据现有技术中的语音识别技术来进行文字的转换。
优选地,与机顶盒匹配的遥控器上设有语音输入按键,按下按键进行语音录入,将用户的语音发送给机顶盒。
优选地,若用户为儿童或其他有语言障碍而不能准确发声的人,导致不能准确的将用户的语音转换为文字,则机顶盒开启摄像头,摄像头采集儿童发出指令时的口型,机顶盒内预设语言文字库,识别用户的口型,在口型在语言库中寻找相对应的文字,最终将用户的语音转化为文字。
步骤S120:在转换后的文字中搜索指令关键词。
示例性地,指令关键词可以是“关闭音量”、“观看绘本”等文字,指令关键词预存于机顶盒的指令关键词库中。
具体地,通过指令关键词库搜索语言文字中的指令关键词。
具体地,转化后的文字根据语义分解为多个词语,在语音库中查询多个词语中的一个或多个是否存在,若一个或多个词语能被查询到,则该一个词语或多个词语构成指令关键词。
示例性地,若用户发出的语音为“我想打开绘本和提高音量”,其中“想打开绘本”和“提高音量”构成指令关键词。
步骤S130:在指令关键词的前序和后续文字中搜索否定词。
示例性地,否定词为“不要、不想、不可以…..”等词语,否定词所涉及的词语预存于机顶盒的否定词库中。
具体地,否定词根据语义分解为多个词语,在语音库中查询多个词语中的一个或多个是否存在,若一个或多个词语能被查询到,则该一个词语或多个词语构成否定词。
若存在否定词,则判断否定词的种类,判断否定词是否为多重否定。
具体地,若否定词为多重否定,则判断表达的是肯定还是否定的含义。
示例性地,若判断否定词为“不是不想要”,则表达的是“想要”,为肯定的含义。
示例性地,用户发出的语音为“我不是不想要打开绘本”,其中“不是”和“不想要”构成否定词。
步骤S140:在关键词的前序和后续文字中搜索疑问词。
示例性地,疑问词可以是“ma?、ya?”,疑问词所涉及的词语预存于机顶盒的疑问词库中。
示例性地,疑问词根据语义分解为多个词语,在语音库中查询多个词语中的一个或多个是否存在,若一个或多个词语能被查询到,则该一个词语或多个词语构成疑问词。
示例性地,用户发出的语音为“怎么样才能关闭音量呢”,其中“怎么样”和“呢”共同构成疑问词。
具体地,若存在疑问词,而发出的语音过长,则寻找疑问词所在的用户语音中的语音片段,通过分析语音片段中的声调以及判断疑问词是否存在于句尾,综合分析语音中是否存在真实的疑问句,若存在疑问词,而发出的语音很简短,则直接分析用户发出的语音。
示例性地,疑问词的前序和后续所包括的词语构成语音片段,如上述的“怎么样才能关闭音量呢”,用户发出的语音很简短,则能直接作为语音片段进行分析。
进一步地,判断用户发出的语音长短可以在机顶盒内进行预设,优选地,若用户发出的语音不超过15个字,则判断为简短语音。
优选地,疑问词是否真实的判断是经过词音长度、语调和重音等方面综合进行判断的。
作为另一个实施例,先执行步骤S140,后执行步骤S130;先在关键词的前序和后续文字中搜索疑问词,后在指令关键词的前序和后续文字中搜索否定词,同样能够得出判断结果。
步骤S150:结合关键词、否定词以及疑问词的判断结果,综合判断上述的语音文字是否为用户实体发出的语音指令,以及语音指令的真实含义。
示例性地,若语音文字为“你不能关闭声音吗”,关闭声音为关键词,关键词的前序中出现了否定词,关键词的后续中出现了疑问词,判断结果为语音文字为执行关闭的指令。
示例性地,若判断语言文字为不确定是否执行的指令,则向机顶盒发送询问指令,机顶盒询问用户是否要执行指令。
若用户在时间阈值内对询问指令不作出回应,则机顶盒不执行该指令。
优选地,时间阈值为3-5分钟。
具体地,若发出语音指令的为用户A,对询问指令作出回应的为用户B或C,则依然根据用户B或C的回应执行指令。
其中,用户A、B或C可以为成人或儿童,在此不进行限定。
具体地,若发出的语音指令不是用户实体发出的指令,则不进行指令的执行。示例性地,若为机器人发出的指令则不进行执行。
示例性地,机器人发出的语音和用户实体发出的语音无论从音调、音色或是语句的停顿,都是不一样的,区分是机器人还是用户实体发出语音根据现有技术进行区分,再次不进行详细描述。
本申请的指令判断方法首先通过进行关键词的判断,进行搜索关键词;进而再进行否定词的判断,判断关键词的前序和后续中是否存在否定词;最后进行疑问词的判断,分析疑问词的真实性,结合关键词、否定词以及疑问词的综合判断分析,最后分析得到语音指令的真实含义。
本申请中的语言文字库、指令关键词库、否定词库以及疑问词库均设置在机顶盒中。
本申请实现的有益效果如下:
(1)本申请的指令识别方法,能够智能识别用户所发出的指令,提高指令识别的准确度。
(2)本申请的指令识别方法能够识别儿童或语言有障碍的用户所发出的指令,提高了指令识别的成功率。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种指令识别方法,其特征在于,具体包括以下步骤:
将用户的语音转换为文字;
在所述文字中搜索指令关键词、否定词以及疑问词;
综合所述指令关键词、否定词以及疑问词分析判断用户的真实指令。
2.如权利要求1所述的指令识别方法,其特征在于,若用户为儿童,机顶盒开启摄像头进行用户口型的采集。
3.如权利要求2所述的指令识别方法,其特征在于,包括语言文字库,根据采集的所述口型在所述语言文字库中寻找相对应的文字,将用户的语音转化为文字。
4.根据权利要求1所述的指令识别方法,其特征在于,所述指令关键词为预存于指令关键词库中。
5.根据权利要求1所述的指令识别方法,其特征在于,在所述指令关键词的前序和后续文字中搜索否定词,所述否定词所涉及的词语预存于否定词库中。
6.根据权利要求1所述的指令识别方法,其特征在于,在所述指令关键词的前序和后续文字中搜索疑问词。
7.根据权利要求6所述的指令识别方法,其特征在于,所述疑问词所涉及的词语预存于疑问词库中。
8.根据权利要求1所述的指令识别方法,其特征在于,若存在所述疑问词,则寻找疑问词所在的用户语音中的语音片段,通过分析所述语音片段中的声调以及判断所述疑问词是否存在于句尾,综合分析语音中是否存在真实的疑问句。
9.根据权利要求1所述的指令识别方法,其特征在于,所述疑问词是否真实的判断是经过词音长度、语调和重音方面综合进行判断的。
10.根据权利要求3-7所述的指令识别方法,其特征在于,所述语言文字库、指令关键词库、否定词库以及疑问词库设置在机顶盒中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810696925.2A CN108877786A (zh) | 2018-06-29 | 2018-06-29 | 指令识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810696925.2A CN108877786A (zh) | 2018-06-29 | 2018-06-29 | 指令识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108877786A true CN108877786A (zh) | 2018-11-23 |
Family
ID=64297095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810696925.2A Pending CN108877786A (zh) | 2018-06-29 | 2018-06-29 | 指令识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108877786A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110730389A (zh) * | 2019-12-19 | 2020-01-24 | 恒信东方文化股份有限公司 | 一种视频节目自动生成互动问答的方法及装置 |
CN110827807A (zh) * | 2019-11-29 | 2020-02-21 | 恒信东方文化股份有限公司 | 一种语音识别的方法及其系统 |
CN112820274A (zh) * | 2021-01-08 | 2021-05-18 | 上海仙剑文化传媒股份有限公司 | 一种语音信息识别校正方法和系统 |
CN117636877A (zh) * | 2024-01-24 | 2024-03-01 | 广东铭太信息科技有限公司 | 一种基于语音指令的智能系统操作方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258775A (ja) * | 1996-03-25 | 1997-10-03 | Canon Inc | 音声認識方法及び装置 |
CN101192405A (zh) * | 2006-12-01 | 2008-06-04 | 索尼株式会社 | 语音处理设备、语音处理方法和语音处理程序 |
CN101604204A (zh) * | 2009-07-09 | 2009-12-16 | 北京科技大学 | 智能情感机器人分布式认知技术 |
CN105206284A (zh) * | 2015-09-11 | 2015-12-30 | 清华大学 | 疏导青少年心理压力的虚拟聊天方法与系统 |
CN106875941A (zh) * | 2017-04-01 | 2017-06-20 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
-
2018
- 2018-06-29 CN CN201810696925.2A patent/CN108877786A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258775A (ja) * | 1996-03-25 | 1997-10-03 | Canon Inc | 音声認識方法及び装置 |
CN101192405A (zh) * | 2006-12-01 | 2008-06-04 | 索尼株式会社 | 语音处理设备、语音处理方法和语音处理程序 |
CN101604204A (zh) * | 2009-07-09 | 2009-12-16 | 北京科技大学 | 智能情感机器人分布式认知技术 |
CN105206284A (zh) * | 2015-09-11 | 2015-12-30 | 清华大学 | 疏导青少年心理压力的虚拟聊天方法与系统 |
CN106875941A (zh) * | 2017-04-01 | 2017-06-20 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827807A (zh) * | 2019-11-29 | 2020-02-21 | 恒信东方文化股份有限公司 | 一种语音识别的方法及其系统 |
CN110827807B (zh) * | 2019-11-29 | 2022-03-25 | 恒信东方文化股份有限公司 | 一种语音识别的方法及其系统 |
CN110730389A (zh) * | 2019-12-19 | 2020-01-24 | 恒信东方文化股份有限公司 | 一种视频节目自动生成互动问答的方法及装置 |
CN112820274A (zh) * | 2021-01-08 | 2021-05-18 | 上海仙剑文化传媒股份有限公司 | 一种语音信息识别校正方法和系统 |
CN112820274B (zh) * | 2021-01-08 | 2021-09-28 | 上海仙剑文化传媒股份有限公司 | 一种语音信息识别校正方法和系统 |
CN117636877A (zh) * | 2024-01-24 | 2024-03-01 | 广东铭太信息科技有限公司 | 一种基于语音指令的智能系统操作方法及系统 |
CN117636877B (zh) * | 2024-01-24 | 2024-04-02 | 广东铭太信息科技有限公司 | 一种基于语音指令的智能系统操作方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255113B (zh) | 智能校对系统 | |
CN108877786A (zh) | 指令识别方法 | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US10074369B2 (en) | Voice-based communications | |
US20210335351A1 (en) | Voice Characterization-Based Natural Language Filtering | |
US10580404B2 (en) | Indicator for voice-based communications | |
US10453449B2 (en) | Indicator for voice-based communications | |
TWI395201B (zh) | 情緒語音辨識方法及系統 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
JP5017534B2 (ja) | 飲酒状態判定装置及び飲酒状態判定方法 | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
US20040199389A1 (en) | Method and device for recognising a phonetic sound sequence or character sequence | |
US20240029732A1 (en) | Speech-processing system | |
US20180075023A1 (en) | Device and method of simultaneous interpretation based on real-time extraction of interpretation unit | |
CN117352000A (zh) | 语音分类方法、装置、电子设备及计算机可读介质 | |
KR20100068965A (ko) | 자동 통역 장치 및 그 방법 | |
CN113053358A (zh) | 一种分区域方言的语音识别客服系统 | |
KR20190032557A (ko) | 음성 기반 통신 | |
KR102086601B1 (ko) | 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 | |
US11991511B2 (en) | Contextual awareness in dynamic device groups | |
CN107123420A (zh) | 一种语音识别系统及其交互方法 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN110827807B (zh) | 一种语音识别的方法及其系统 | |
Chakraborty et al. | Spontaneous speech emotion recognition using prior knowledge | |
US11721331B1 (en) | Device functionality identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |