CN106570180B - 基于人工智能的语音搜索方法及装置 - Google Patents

基于人工智能的语音搜索方法及装置 Download PDF

Info

Publication number
CN106570180B
CN106570180B CN201610992011.1A CN201610992011A CN106570180B CN 106570180 B CN106570180 B CN 106570180B CN 201610992011 A CN201610992011 A CN 201610992011A CN 106570180 B CN106570180 B CN 106570180B
Authority
CN
China
Prior art keywords
entity
pinyin
list
determining
query statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610992011.1A
Other languages
English (en)
Other versions
CN106570180A (zh
Inventor
刘备
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610992011.1A priority Critical patent/CN106570180B/zh
Publication of CN106570180A publication Critical patent/CN106570180A/zh
Application granted granted Critical
Publication of CN106570180B publication Critical patent/CN106570180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请提出一种基于人工智能的语音搜索方法及装置,首先接收用户输入的第一查询语句,然后对第一查询语句进行词法分析,确定第一查询语句中包括的第一实体列表,再对第一实体列表中的各实体进行拼音标注,确定第一拼音列表,然后根据预设的拼音实体库,确定与第一拼音列表模糊匹配的第二实体列表,进而确定与用户输入的语音对应的第三实体列表,然后将由第三实体列表中的实体组成的第二查询语句中,与其它词语片段的拼音编辑距离小于第一预设值的一个词语片段剔除,得到第三查询语句。由此,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。

Description

基于人工智能的语音搜索方法及装置
技术领域
本申请涉及信息搜索技术领域,尤其涉及一种基于人工智能的语音搜索方法及装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
现有的语音搜索引擎,由于受到语音识别准确率和发音不标准的问题,语音查询语句(query)中常常参杂一些被识别错误的词或字,语音搜索引擎在收到用户输入的语音query后,通常首先基于拼音匹配的方式,对query中的词语片段(term)进行纠正,然后再根据纠正后的query获取搜索结果。
这种搜索方式,仅通过简单的term纠正,无法对所有语音query都进行准确的纠正,比如对于包括重复片段的查询语句,仅通过term纠正的方式,并不能得到准确的query,从而影响了搜索引擎的准确率,降低了用户体验。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于人工智能的语音搜索方法,该方法实现了基于拼音模糊匹配和拼音编辑距离,查找查询语句中的潜在错误,并对查询语句中的错误进行纠正,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
本申请的第三个目的在于提出一种基于人工智能的语音搜索设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种基于人工智能的语音搜索方法,包括:接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的;对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表;对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表;根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表;根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表;判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段;若是,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
本申请实施例的基于人工智能的语音搜索方法,首先接收用户输入的第一查询语句,然后对第一查询语句进行词法分析,确定第一查询语句中包括的第一实体列表,再对第一实体列表中的各实体进行拼音标注,确定第一拼音列表,然后根据预设的拼音实体库,确定与第一拼音列表模糊匹配的第二实体列表,进而确定与用户输入的语音对应的第三实体列表,然后将由第三实体列表中的实体组成的第二查询语句中,与其它词语片段的拼音编辑距离小于第一预设值的一个词语片段剔除,得到第三查询语句。由此,实现了基于拼音模糊匹配和拼音编辑距离,查找查询语句中的潜在错误,并对查询语句中的错误进行纠正,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
为达上述目的,本申请第二方面实施例提出了一种基于人工智能的语音搜索装置,包括:
接收模块,用于接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的;
分析模块,用于对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表;
第一确定模块,用于对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表;
第二确定模块,用于根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表;
第三确定模块,用于根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表;
判断模块,用于判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段;
处理模块,用于若第二查询语句中包括拼音编辑距离小于第一预设的值的词语片段,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
本申请实施例的基于人工智能的语音搜索装置,首先接收用户输入的第一查询语句,然后对第一查询语句进行词法分析,确定第一查询语句中包括的第一实体列表,再对第一实体列表中的各实体进行拼音标注,确定第一拼音列表,然后根据预设的拼音实体库,确定与第一拼音列表模糊匹配的第二实体列表,进而确定与用户输入的语音对应的第三实体列表,然后将由第三实体列表中的实体组成的第二查询语句中,与其它词语片段的拼音编辑距离小于第一预设值的一个词语片段剔除,得到第三查询语句。由此,实现了基于拼音模糊匹配和拼音编辑距离,查找查询语句中的潜在错误,并对查询语句中的错误进行纠正,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
为达上述目的,本申请第三方面实施例提出了一种基于人工智能的点击预估设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如上述第一方面中的基于人工智能的语音搜索方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种如上述第一方面中的基于人工智能的语音搜索方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种如上述第一方面中的基于人工智能的语音搜索方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的基于人工智能的语音搜索方法的流程示意图;
图2为本申请提供的拼音实体库的训练过程示意图;
图3为本申请提供语音搜索方法中的词法分析过程示意图;
图4是本申请一个实施例的基于人工智能的语音搜索装置的结构示意图;
图5是本申请另一个实施例的基于人工智能的语音搜索装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于人工智能的语音搜索方法及装置。
本申请各实施例中,主要针对现有语音搜索方式中,无法对方言或者重复输入带来的查询语句错误进行准确的纠错,从而影响搜索结果的准确性,影响搜索引擎的准确率的问题,提出一种基于人工智能的语音搜索方法及装置,通过根据拼音匹配及拼音编辑距离,对语音query进行分析和纠错,用纠正的term替换识别错误的term,再对替换的term进行重复片段识别,将多余的重复片段进行去除,最终实现对长语音query的改写。
图1是本申请一个实施例的基于人工智能的语音搜索方法的流程示意图。
如图1所示,该基于人工智能的语音搜索方法包括:
步骤101,接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的。
具体地,本发明实施例提供的基于人工智能的语音搜索方法的执行主体为基于人工智能的语音搜索装置,该语音搜索装置可以被配置在任何支持语音搜索的搜索引擎中,用于对语音查询语句进行处理,以获得准确的搜索结果。其中,搜索引擎可以应用于任何具有搜索功能的终端设备中。其中,终端设备的类型很多,例如:智能手机、平板电脑,计算机等。
其中,用户输入的语音可能是几个词组、一句话,或者几句话等,语音搜索装置在收到用户输入的语音后,通过语音识别,确定第一查询语句,相应的第一查询语句也可能为几个词组、一句话或者几句话等,本实施例对此不做限定。
步骤102,对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表。
具体的,对查询语句进行词法分析,包括对查询语句进行分词、词性标注、命名实体识别等等处理,从而确定第一查询语句中包括的各实体。
步骤103,对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表。
步骤104,根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表。
其中,预设的拼音实体库,是语音搜索装置根据历史点击日志信息或其他数据库挖掘训练得到的。其中包括各种类型的命名实体的汉字及对应的拼音,从而语音搜索装置,通过拼音匹配的方式,即可确定与第一拼音列表模糊匹配的第二实体列表。
具体的,第二实体列表与所述第一拼音列表模糊匹配,是指第二实体列表中各实体的拼音与第一拼音列表中的拼音间的编辑距离小于预设的值。即上述步骤104,包括:
判断预设的拼音实体库中第一实体的拼音,与所述第一拼音列表中第一拼音片段的拼音间编辑距离是否小于第二预设的值;
若是,则将所述第一实体加入所述第二实体列表中。
其中,拼音编辑距离,是指两段拼音之间的编码距离,即从输入角度而言,A段拼音转换成B段拼音需要最短的基本操作数目,其中可采用的基本操作是插入、删除和替换。举例来说,A段拼音为“zhegehaizihenxiangtababa”而B段拼音为“zhegehaizihaoxiangtababa”,将A段拼音转换为B段拼音,只需将其中的“en”,用“ao”替换即可,即从A段拼音到B段拼音的编辑距离为2。
具体实现时,第二预设的值可以根据实体长度选择,比如可以确定为实体拼音字符较长度的1/10、1/9、1/8等等。可以理解的是,第二预设的值越小,说明两段拼音间的编辑距离越小,即两段拼音一致性越高。
通常,若使用语音搜索的用户发音不准确,那么语音搜索装置在将用户输入的语音转化为查询语句时,可能出现语音识别错误,从而得到的第一查询语句就会出现错误,本实施例中,为了识别用户发音不准确引起的第一查询语句中的错误,可以首先将第一查询语句进行拼音标注,然后再根据拼音,从预设的拼音实体库中,找到与第一查询语句的拼音模糊匹配的第二实体列表。
举例来说,若用户想输入的查询语句为“我想看湄公河大案”,而由于用户的发音问题,“大”字发音成了“Dá”,从而语音搜索装置根据用户输入的语音确定的第一查询语句就可能为“我想看湄公河答案”,进而通过对第一查询语句进行拼音标注,确定的第一查询语句的拼音即为“wo xiang kan mei gong he da an”,然后通过查询预设的拼音实体库,即可确定与该段拼音对应的第二实体列表中包括的实体有:“湄公河”及“湄公河大案”。
步骤105,根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表。
具体的,根据预设的拼音实体库,得到的第二实体列表中,同一拼音可能对应多个实体,或者第二实体列表中与第一实体列表中,与同一拼音对应的实体可能不同,因此在确定了第二实体列表后,可以根据第一实体列表和第二实体列表,确定与用户输入的语音对应的第三实体列表。
举例来说,若第二实体列表中与同一拼音对应的实体有2个,比如与“bei dian”对应的实体有:“杯垫”和“北电”,而第一实体列表中与“bei dian”对应的实体为“北电”,那么通过比较即可认为,用户输入的语音中与“bei dian”对应的实体为“北电”,即确定的第三实体列表中包括“北电”。
或者,若第二实体列表与第一实体列表中与同一拼音对应的实体不同,那么即可将第二实体列表中的实体放入第三实体列表中。举例来说,通过对第一查询语句进行词法分析,确定的第一实体列表中包括“湄公河答案”实体,通过语音标注,可确定该实体的拼音为“mei gong he da an”,而通过查询预设的拼音实体库,确定与该拼音对应的第二实体列表中的实体为“湄公河大案”,从而即可确定与用户输入的语音对应的实体为“湄公河大案”。
步骤106,判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段。
其中,第一预设的值可以根据词语片段的拼音长短确定,比如可以为词语片段的拼音长度的1/10、1/8等等。
可以理解的是,第一预设的值越小,则说明词语片段间的含义越相近。
步骤107,若是,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
具体的,在确定第三实体列表后,即可利用第三实体列表中的各实体,构造第二查询语句,进而再判断第二查询语句中是否包括拼音编辑距离是否小于预设的值的词语片段,若包括,则说明用户在输入语音时,进行了重复或者纠错输入,从而即可将其中一个词语片段从第二查询语句中剔除,进而得到准确的查询语句。
举例来说,若根据用户输入的语音确定的第一查询语句为“我想看湄公河答案,我想看湄公河惨案”,那么得到的第一实体列表中包括的实体为:湄公河、湄公河答案、湄公河惨案;通过拼音标注、拼音模糊匹配后,确定的第二实体列表中包括的实体为:湄公河、湄公河大案、湄公河惨案,从而通过比较,即可确定第三实体列表中包括的实体为:湄公河、湄公河大案、湄公河惨案;进而确定的第二查询语句为“我想看湄公河大案,我想看湄公河惨案”,而通过拼音比较,可知“我想看湄公河大案”和“我想看湄公河惨案”的拼音编辑距离较小,从而即可将“我想看湄公河大案”从第二查询语句中剔除,得到第三查询语句为“我想看湄公河惨案”,进而即可根据第三查询语句进行搜索,并将获得的搜索结果反馈给用户。
可以理解的是,若第二查询语句中,不包括拼音编辑距离小于第一预设的值的词语片段,则说明第二查询语句中不存在重复的片段,从而即可根据所述第二查询语句,获取搜索结果。
本申请实施例的基于人工智能的语音搜索方法,首先接收用户输入的第一查询语句,然后对第一查询语句进行词法分析,确定第一查询语句中包括的第一实体列表,再对第一实体列表中的各实体进行拼音标注,确定第一拼音列表,然后根据预设的拼音实体库,确定与第一拼音列表模糊匹配的第二实体列表,进而确定与用户输入的语音对应的第三实体列表,然后将由第三实体列表中的实体组成的第二查询语句中,与其它词语片段的拼音编辑距离小于第一预设值的一个词语片段剔除,得到第三查询语句。由此,实现了基于拼音模糊匹配和拼音编辑距离,查找查询语句中的潜在错误,并对查询语句中的错误进行纠正,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
通过上述分析可知,语音搜索装置,可以根据历史点击日志信息或其他数据库挖掘训练得到的。下面结合图2对语音搜索装置,训练拼音实体库的过程进行详细说明。
图2为本申请提供的拼音实体库的训练过程示意图。如图2所示,语音搜索装置,主要通过以下步骤获取拼音实体库:
步骤201,获取待挖掘实体数据。
其中,待挖掘实体数据,是从点击日志或知识数据中挖掘得到的数据,主要包括:歌曲、电影、游戏等类别实体。
具体的,语音搜索装置,可以通过对点击query进行命名实体辨识(Named EntityRecognition,简称ner)和人名标识(post ag)分析,获取相对应的实体term,如人名(person,简称PER),组织(organization,简称ORG),视频(VIDEO)、游戏(GAME)等类别的实体词。
步骤202,将所述待挖掘的实体数据中的单字词条或者词汇类词条滤除后,确定第一实体词典。
具体的,由于通过命名实体辨识或人名识别的方式获得的待挖掘的实体数据中,通常包括单字词条或词汇类词条,比如:“风”、“雨”等,而这类实体词汇在查询语句中通常不会独立出现,从而即可将此类词汇从待挖掘实体数据中剔除,以减小拼音实体库训练的复杂度。
步骤203,将所述第一实体词典中的各实体词,进行大粒度合并,确定第二实体词典。
具体的,第一实体词典中的实体词汇可能为小粒度实体词汇,比如第一实体词典中包括“河北”、“石家庄”,而由于石家庄市属于河北省,从而即可将“河北”和“石家庄”进行合并,得到大粒度的实体词汇“河北石家庄”,从而进一步减小了拼音实体库训练的复杂性,并且大粒度的实体词汇,还可以减小语音搜索装置的拼音匹配过程和时间。
需要说明的是,第二实体词典中除包括大粒度的分词外,还可以包括组成大粒度分词的各小粒度分词,从而使得第一查询语句中仅包括小粒度分词时,根据该第二实体词典也可以对小粒度分词进行纠错。
步骤204,为所述第二实体词典中的各实体词进行拼音标注,确定拼音实体库。
具体的,拼音实体库可以是KV格式的拼音字典,其中,k为拼音字串,v为实体,从而语音搜索装置,在确定了拼音列表后,即可根据拼音列表中各实体的拼音,从拼音字典中查找对应的实体,由于拼音字典中的实体都是根据历史数据确定的,从而使得根据拼音实体库确定的实体的准确性较高,提高定位查询语句中潜在错误的准确性。
进一步地,由于语音搜索装置,在训练拼音实体库时,可以通过将小粒度实体进行大粒度合并,以减小数据训练复杂性。相应的语音搜索装置,在对第一查询语句进行词法分析,确定第一实体列表时,也可以在将第一查询语句分词后,命名实体识别后,再将识别的实体进行大粒度合并。下面结合图3对本申请提供的词法分析过程进行详细说明。
图3为本申请提供语音搜索方法中的词法分析过程示意图。如图3所述,语音搜索装置可通过以下步骤,完成词法分析过程:
步骤301,对所述第一查询语句进行分词处理,确定所述第一查询语句中包括的各最小粒度分词。
通常,用户在进行语音搜索时,输入的第一查询语句中包括多个分词,为了准确定位第一查询语句中的错误位置,本实施例中,在获取到第一查询语句后,可以首先通过分词处理,确定第一查询语句中包括的各最小粒度的分词。
举例来说,若第一查询语句为“湖北石家庄有哪些好玩的地方”,那么通过分词处理后,即可确定第一查询语句中包括的最小粒度分词有:“湖北”、“石家庄”、“有”、“哪些”、“好玩”、“的”及“地方”。
步骤302,对所述各最小粒度分词进行实体识别,确定所述第一查询语句中包括的实体。
具体的,通过实体识别后,即可确定上述第一查询语句中,包括的实体有“湖北”和“石家庄”。
步骤303,判断相邻的实体合并后组成的大粒度分词的拼音,与所述拼音实体库中的第一拼音间的编辑距离是否小于第三预设的值。
步骤304,若是,则将相邻的实体词进行合并,确定所述第一查询语句中包括的第一实体列表。
其中,第三预设的值的大小,可以根据大粒度分词的拼音长度确定,比如确定为大粒度分词拼音长度的1/10等。需要说明的是,第三预设的值越小,说明大粒度分词与第一拼音对应的分词的一致性越高。
具体的,将“湖北”和“石家庄”合并后的大粒度分词的拼音为“hu bei Shijiazhuang”,通过查询拼音实体库可知,其与“he bei Shijia zhuang”的编辑距离仅为1,从而即可将“湖北”和“石家庄”进行合并,合并后组成的大粒度分词“湖北石家庄”。
在一种可能的实现形式中,对同一查询语句进行小粒度切分时,可能得到的切分结果也不相同,比如,若第一查询语句为“南京市长江”,进行切分时可以得到的结果包括“南京市∣长江”和“南京市长∣江”,此时就需要对切分结果进行校验,即在上述步骤301之后,还包括:
对所述各最小粒度分词进行词性标注,确定所述各最小粒度分词的词性属性;
根据所述各最小粒度分词的词性属性,对所述各最小粒度的分词进行边界修订,确定所述各最小粒度分词的各第一修订词。
其中,最小粒度分词的词性属性,是指最小粒度分词是名词、动词、形容词等那种类别的词汇。而通常查询语句的词语结构为:名、名+名、名+形容、名+动+名等,从而在确定各最小粒度分词的词性属性后,即可确定此次分词边界是否准确。
举例来说,“南京市”和“长江”均为名词,且均有具体的实体,即第一查询语句的构成为名+名,而“南京市长”为名词,“江”无法准确定义其含义,其可能是南京市长的姓氏,也可能是南京市的江流,因此可对第二种切分方式的边界进行修订,从而得到修订后的第一修订词为“南京市”、“长江”和“南京市长”。
相应的,上述步骤302,具体为:对所述各第一修订词进行实体识别,确定所述第一查询语句中包括的实体词。
进而在确定第一查询语句中包括的实体词后,即可通过上述方式,将可以合并的实体词进行合并,得到最大粒度的实体词,通常合并得到的大粒的实体词多为游戏名、软件名、电影名或者歌曲名等,而这也正是用户进行语音搜索的最终目的。
本申请实施例的基于人工智能的语音搜索方法,语音搜索装置,在接收到用户输入的第一查询语句后,首先将第一查询语句进行分词处理,确定第一查询语句包括的最小粒度分词,然后根据最小粒度分词的词性属性,将最小粒度分词的边界进行修订后,再将修订后的分词进行实体识别,识别出第一查询语句中包括的实体,进而将实体的实体进行最大粒度的合并,从而确定第一查询语句对应的第一实体列表,然后再通过拼音标注、拼音编辑距离匹配,将第一实体列表中的实体进行错误定位和纠正,确定与用户输入的语音对应的第三实体列表。由此,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
为了实现上述实施例,本申请还提出一种基于人工智能的语音搜索装置。
图4是本申请一个实施例的基于人工智能的语音搜索装置的结构示意图。
如图4所示,该基于人工智能的语音搜索装置包括:
接收模块41,用于接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的;
分析模块42,用于对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表;
第一确定模块43,用于对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表;
第二确定模块44,用于根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表;
第三确定模块45,用于根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表;
判断模块46,用于判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段;
处理模块47,用于若第二查询语句中包括拼音编辑距离小于第一预设的值的词语片段,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
其中,上述处理模块47,还用于:
若第二查询语句中不包括拼音编辑距离小于第一预设的值的词语片段,则根据所述第二查询语句,获取搜索结果。
在本实施例一种可能的实现形式中,上述第二确定模块44,具体用于:
判断预设的拼音实体库中第一实体的拼音,与所述第一拼音列表中第一拼音片段的拼音间编辑距离是否小于第二预设的值;
若是,则将所述第一实体加入所述第二实体列表中。
需要说明的是,前述对基于人工智能的语音搜索方法实施例的解释说明也适用于该实施例的基于人工智能的语音搜索装置,此处不再赘述。
本申请实施例的基于人工智能的语音搜索装置,首先接收用户输入的第一查询语句,然后对第一查询语句进行词法分析,确定第一查询语句中包括的第一实体列表,再对第一实体列表中的各实体进行拼音标注,确定第一拼音列表,然后根据预设的拼音实体库,确定与第一拼音列表模糊匹配的第二实体列表,进而确定与用户输入的语音对应的第三实体列表,然后将由第三实体列表中的实体组成的第二查询语句中,与其它词语片段的拼音编辑距离小于第一预设值的一个词语片段剔除,得到第三查询语句。由此,实现了基于拼音模糊匹配和拼音编辑距离,查找查询语句中的潜在错误,并对查询语句中的错误进行纠正,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
图5是本申请另一个实施例的基于人工智能的语音搜索装置的结构示意图。
如图5所示,在上述图4所示的基础上,该基于人工智能的语音搜索装置,还包括:
获取模块51,用于获取待挖掘实体数据;
滤除模块52,用于将所述待挖掘的实体数据中的单字词条或者词汇类词条滤除后,确定第一实体词典;
合并模块53,用于将所述第一实体词典中的各实体词,进行大粒度合并,确定第二实体词典;
标注模块54,用于为所述第二实体词典中的各实体词进行拼音标注,确定拼音实体库。
在本实施例一种可能的实现形式中,上述第一确定模块43,包括:
分词单元,用于对所述第一查询语句进行分词处理,确定所述第一查询语句中包括的各最小粒度分词;
识别单元,用于对所述各最小粒度分词进行实体识别,确定所述第一查询语句中包括的实体;
判断单元,用于判断相邻的实体合并后组成的大粒度分词的拼音,与所述拼音实体库中的第一拼音间的编辑距离是否小于第三预设的值;
处理单元,用于若是,则将相邻的实体词进行合并,确定所述第一查询语句中包括的第一实体列表。
在一种优选的实现形式中,上述第一确定模块43,还包括:标注单元,用于对所述各最小粒度分词进行词性标注,确定所述各最小粒度分词的词性属性;
修订单元,用于根据所述各最小粒度分词的词性属性,对所述各最小粒度的分词进行边界修订,确定所述各最小粒度分词的各第一修订词;
相应的所述识别单元,具体用于:
对所述各第一修订词进行实体识别,确定所述第一查询语句中包括的实体词。
需要说明的是,前述对基于人工智能的语音搜索方法实施例的解释说明也适用于该实施例的基于人工智能的语音搜索装置,此处不再赘述。
本申请实施例的基于人工智能的语音搜索装置,在接收到用户输入的第一查询语句后,首先将第一查询语句进行分词处理,确定第一查询语句包括的最小粒度分词,然后根据最小粒度分词的词性属性,将最小粒度分词的边界进行修订后,再将修订后的分词进行实体识别,识别出第一查询语句中包括的实体,进而将实体的实体进行最大粒度的合并,从而确定第一查询语句对应的第一实体列表,然后再通过拼音标注、拼音编辑距离匹配,将第一实体列表中的实体进行错误定位和纠正,确定与用户输入的语音对应的第三实体列表。由此,减小了语音搜索过程中语音识别错误对搜索的影响,实现了重复片段去重,提高了语音检索的准确率,改善了用户体验。
基于上述各实施例,本申请再一个实施例提供一种基于人工智能的语音搜索设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行以下操作:接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的;对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表;对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表;根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表;根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表;判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段;若是,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
进一步地,本申请实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够如上实施例中的基于人工智能的语音搜索方法。
进一步地,本申请实施例还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种如上述实施例所示的基于人工智能的语音搜索方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
流程示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,但是上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基于人工智能的语音搜索方法,其特征在于,包括以下步骤:
接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的;
对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表;
对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表;
根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表;
根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表,其中,若所述第二实体列表中与同一拼音对应的实体有多个,则将所述第一实体列表中与所述同一拼音对应的实体放入所述第三实体列表中,若所述第二实体列表与所述第一实体列表中与同一拼音对应的实体不同,则将所述第二实体列表中与所述同一拼音对应的实体放入所述第三实体列表中;
判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段;
若是,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
2.如权利要求1所述的方法,其特征在于,所述判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段之后,还包括:
若否,则根据所述第二查询语句,获取搜索结果。
3.如权利要求1所述的方法,其特征在于,所述根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表,包括:
判断预设的拼音实体库中第一实体的拼音,与所述第一拼音列表中第一拼音片段的拼音间编辑距离是否小于第二预设的值;
若是,则将所述第一实体加入所述第二实体列表中。
4.如权利要求1所述的方法,其特征在于,所述对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表,包括:
对所述第一查询语句进行分词处理,确定所述第一查询语句中包括的各最小粒度分词;
对所述各最小粒度分词进行实体识别,确定所述第一查询语句中包括的实体;
判断相邻的实体合并后组成的大粒度分词的拼音,与所述拼音实体库中的第一拼音间的编辑距离是否小于第三预设的值;
若是,则将相邻的实体词进行合并,确定所述第一查询语句中包括的第一实体列表。
5.如权利要求4所述的方法,其特征在于,所述对所述第一查询语句进行分词处理,确定所述第一查询语句中包括的各最小粒度分词之后,还包括:
对所述各最小粒度分词进行词性标注,确定所述各最小粒度分词的词性属性;
根据所述各最小粒度分词的词性属性,对所述各最小粒度的分词进行边界修订,确定所述各最小粒度分词的各第一修订词;
所述对所述各最小粒度分词进行实体识别,确定所述第一查询语句中包括的实体,包括:
对所述各第一修订词进行实体识别,确定所述第一查询语句中包括的实体词。
6.如权利要求1-5任一所述的方法,其特征在于,所述根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表之前,还包括:
获取待挖掘实体数据;
将所述待挖掘的实体数据中的单字词条或者词汇类词条滤除后,确定第一实体词典;
将所述第一实体词典中的各实体词,进行大粒度合并,确定第二实体词典;
为所述第二实体词典中的各实体词进行拼音标注,确定拼音实体库。
7.一种基于人工智能的语音搜索装置,其特征在于,包括:
接收模块,用于接收用户输入的第一查询语句,其中所述第一查询语句是根据用户输入的语音确定的;
分析模块,用于对所述第一查询语句进行词法分析,确定所述第一查询语句中包括的第一实体列表;
第一确定模块,用于对所述第一实体列表中的各实体进行拼音标注,确定第一拼音列表;
第二确定模块,用于根据预设的拼音实体库,确定与所述第一拼音列表模糊匹配的第二实体列表;
第三确定模块,用于根据所述第二实体列表和第一实体列表,确定与所述用户输入的语音对应的第三实体列表,其中,若所述第二实体列表中与同一拼音对应的实体有多个,则将所述第一实体列表中与所述同一拼音对应的实体放入所述第三实体列表中,若所述第二实体列表与所述第一实体列表中与同一拼音对应的实体不同,则将所述第二实体列表中与所述同一拼音对应的实体放入所述第三实体列表中;
判断模块,用于判断由所述第三实体列表中的实体组成的第二查询语句中,是否包括拼音编辑距离小于第一预设的值的词语片段;
处理模块,用于若第二查询语句中包括拼音编辑距离小于第一预设的值的词语片段,则将拼音编辑距离小于预设的值的一个词语片段从所述第二查询语句中剔除,确定第三查询语句。
8.如权利要求7所述的装置,其特征在于,所述处理模块,还用于:
若第二查询语句中不包括拼音编辑距离小于第一预设的值的词语片段,则根据所述第二查询语句,获取搜索结果。
9.如权利要求7所述的装置,其特征在于,所述第二确定模块,具体用于:
判断预设的拼音实体库中第一实体的拼音,与所述第一拼音列表中第一拼音片段的拼音间编辑距离是否小于第二预设的值;
若是,则将所述第一实体加入所述第二实体列表中。
10.如权利要求7所述的装置,其特征在于,所述第一确定模块,包括:
分词单元,用于对所述第一查询语句进行分词处理,确定所述第一查询语句中包括的各最小粒度分词;
识别单元,用于对所述各最小粒度分词进行实体识别,确定所述第一查询语句中包括的实体;
判断单元,用于判断相邻的实体合并后组成的大粒度分词的拼音,与所述拼音实体库中的第一拼音间的编辑距离是否小于第三预设的值;
处理单元,用于若是,则将相邻的实体词进行合并,确定所述第一查询语句中包括的第一实体列表。
11.如权利要求10所述的装置,其特征在于,所述第一确定模块,还包括:
标注单元,用于对所述各最小粒度分词进行词性标注,确定所述各最小粒度分词的词性属性;
修订单元,用于根据所述各最小粒度分词的词性属性,对所述各最小粒度的分词进行边界修订,确定所述各最小粒度分词的各第一修订词;
所述识别单元,具体用于:
对所述各第一修订词进行实体识别,确定所述第一查询语句中包括的实体词。
12.如权利要求7-11任一所述的装置,其特征在于,还包括:
获取模块,用于获取待挖掘实体数据;
滤除模块,用于将所述待挖掘的实体数据中的单字词条或者词汇类词条滤除后,确定第一实体词典;
合并模块,用于将所述第一实体词典中的各实体词,进行大粒度合并,确定第二实体词典;
标注模块,用于为所述第二实体词典中的各实体词进行拼音标注,确定拼音实体库。
CN201610992011.1A 2016-11-10 2016-11-10 基于人工智能的语音搜索方法及装置 Active CN106570180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610992011.1A CN106570180B (zh) 2016-11-10 2016-11-10 基于人工智能的语音搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610992011.1A CN106570180B (zh) 2016-11-10 2016-11-10 基于人工智能的语音搜索方法及装置

Publications (2)

Publication Number Publication Date
CN106570180A CN106570180A (zh) 2017-04-19
CN106570180B true CN106570180B (zh) 2020-05-22

Family

ID=58541094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610992011.1A Active CN106570180B (zh) 2016-11-10 2016-11-10 基于人工智能的语音搜索方法及装置

Country Status (1)

Country Link
CN (1) CN106570180B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357772A (zh) * 2017-07-04 2017-11-17 贵州小爱机器人科技有限公司 表单填写方法、装置和计算机设备
CN109800407B (zh) * 2017-11-15 2021-11-16 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN108847251B (zh) * 2018-07-04 2022-12-02 武汉斗鱼网络科技有限公司 一种语音去重方法、装置、服务器及存储介质
CN109036419A (zh) * 2018-07-23 2018-12-18 努比亚技术有限公司 一种语音识别匹配方法、终端及计算机可读存储介质
CN109947955A (zh) * 2019-03-21 2019-06-28 深圳创维数字技术有限公司 语音搜索方法、用户设备、存储介质及装置
CN110765342A (zh) * 2019-09-12 2020-02-07 竹间智能科技(上海)有限公司 信息查询方法及装置、存储介质、智能终端
CN110728137B (zh) * 2019-10-10 2021-03-02 京东数字科技控股有限公司 用于分词的方法和装置
CN111125302A (zh) * 2019-11-29 2020-05-08 海信视像科技股份有限公司 用户输入语句检错方法、装置及电子设备
CN111554295B (zh) * 2020-04-24 2021-06-22 科大讯飞(苏州)科技有限公司 文本纠错方法、相关设备及可读存储介质
CN112634900A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 话术检测方法和话术检测装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
CN103399966A (zh) * 2013-08-26 2013-11-20 百度在线网络技术(北京)有限公司 关键词推荐方法、系统和服务器
CN103873601A (zh) * 2012-12-11 2014-06-18 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及系统
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
WO2016034066A1 (zh) * 2014-09-01 2016-03-10 阿里巴巴集团控股有限公司 一种汉字识别方法、装置及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
CN103873601A (zh) * 2012-12-11 2014-06-18 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及系统
CN103399966A (zh) * 2013-08-26 2013-11-20 百度在线网络技术(北京)有限公司 关键词推荐方法、系统和服务器
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
WO2016034066A1 (zh) * 2014-09-01 2016-03-10 阿里巴巴集团控股有限公司 一种汉字识别方法、装置及终端
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
达观数据搜索引擎的Query自动纠错技术和架构;datagrand;《简书》;20160205;全文 *

Also Published As

Publication number Publication date
CN106570180A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN108287858B (zh) 自然语言的语义提取方法及装置
CN107315737B (zh) 一种语义逻辑处理方法及系统
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
CN106649783B (zh) 一种同义词挖掘方法和装置
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106534548B (zh) 语音纠错方法和装置
WO2017127296A1 (en) Analyzing textual data
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
CN114580382A (zh) 文本纠错方法以及装置
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
CN111339250B (zh) 新类别标签的挖掘方法及电子设备、计算机可读介质
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN111326144A (zh) 语音数据处理方法、装置、介质和计算设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN104516870A (zh) 一种译文检查方法及其系统
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN111401012A (zh) 文本纠错方法、电子设备及计算机可读存储介质
CN114817465A (zh) 一种用于多语言语义理解的实体纠错方法及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant