CN107357830B - 基于人工智能的检索语句语义片段获取方法、装置及终端 - Google Patents

基于人工智能的检索语句语义片段获取方法、装置及终端 Download PDF

Info

Publication number
CN107357830B
CN107357830B CN201710466186.3A CN201710466186A CN107357830B CN 107357830 B CN107357830 B CN 107357830B CN 201710466186 A CN201710466186 A CN 201710466186A CN 107357830 B CN107357830 B CN 107357830B
Authority
CN
China
Prior art keywords
semantic
retrieval
determining
word
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710466186.3A
Other languages
English (en)
Other versions
CN107357830A (zh
Inventor
吴玉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710466186.3A priority Critical patent/CN107357830B/zh
Publication of CN107357830A publication Critical patent/CN107357830A/zh
Priority to US15/854,064 priority patent/US10621391B2/en
Application granted granted Critical
Publication of CN107357830B publication Critical patent/CN107357830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明提出一种基于人工智能的检索语句语义片段获取方法、装置及终端,其中,该方法包括:对获取的检索语句进行预处理,确定检索语句中包括的第一主体词及语义片段集;根据历史检索数据,确定语义片段集中各语义片段与第一主体词间的关联度;根据各语义片段与第一主体词间的关联度,对语义片段集进行过滤处理,确定与检索语句对应的目标语义片段集。实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。

Description

基于人工智能的检索语句语义片段获取方法、装置及终端
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于人工智能的检索语句语义片段获取方法、装置及终端。
背景技术
人工智能(Artificial Intelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在检索语句(query)语义理解技术中,通常用意图和槽位的形式结构化表示query的语义信息。其中,槽位指一些语义片段;意图,指query的需求词即主体词。例如,query为“找一部不用付费的搞笑英文电影”,“电影”作为需求词表示意图,即query的主体词;“不用付费的”、“搞笑”、“英文”等语义片段用于限定主体词“电影”。
语义片段的切分边界直接影响了槽位识别结果,从而间接影响到用户对query检索结果的满意度。若语义片段的切分粒度过小,可能导致结果转义。比如,“不用付费的”被切分成“不用”和“付费的”,槽位极可能识别成“付费的”,导致结果转义。若语义片段的切分粒度过大,则可能导致槽位维度与资源维度不匹配,从而无法检索到能满足条件的结果。比如,“搞笑英文”未被切分开,而“搞笑”和“英文”在知识库资源中分属于两个维度,直接用“搞笑英文”去检索资源可能无法匹配到任何满足条件的结果。因此,如何抽取符合理想切分边界的语义片段,具有重要意义。
现有技术,通常使用人工编辑的模板进行query的语义片段挖掘。然而,上述方法,由于需要人工编辑积累,因此浪费了人力资源,不利于自动化实现,且由于模板不够灵活,只能识别固定格式的语句,这就导致了语义片段的识别效果差,query的检索结果无法满足用户的需求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的检索语句语义片段获取方法,实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
本发明的第二个目的在于提出一种基于人工智能的检索语句语义片段获取装置。
本发明的第三个目的在于提出一种终端。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的检索语句语义片段获取方法,包括:对获取的检索语句进行预处理,确定所述检索语句中包括的第一主体词及语义片段集;根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度;根据所述各语义片段与所述第一主体词间的关联度,对所述语义片段集进行过滤处理,确定与所述检索语句对应的目标语义片段集。
本发明实施例的基于人工智能的检索语句语义片段获取方法,首先对获取的检索语句进行预处理,确定检索语句中包括的第一主体词及语义片段集,然后根据历史检索语句,确定语义片段集中各语义片段与第一主体词间的关联度,最后根据各语义片段与第一主体词间的关联度,对语义片段进行过滤处理,以确定与检索语句对应的目标语义片段集。由此,实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的检索语句语义片段获取装置,包括:第一确定模块,用于对获取的检索语句进行预处理,确定所述检索语句中包括的第一主体词及语义片段集;第二确定模块,用于根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度;第三确定模块,用于根据所述各语义片段与所述第一主体词间的关联度,对所述语义片段集进行过滤处理,确定与所述检索语句对应的目标语义片段集。
本发明实施例的基于人工智能的检索语句语义片段获取装置,首先对获取的检索语句进行预处理,确定检索语句中包括的第一主体词及语义片段集,然后根据历史检索语句,确定语义片段集中各语义片段与第一主体词间的关联度,最后根据各语义片段与第一主体词间的关联度,对语义片段进行过滤处理,以确定与检索语句对应的目标语义片段集。由此,实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当所述处理器执行所述程序时实现如第一方面所述的基于人工智能的检索语句语义片段获取方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执如第一方面所述的基于人工智能的检索语句语义片段获取方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于人工智能的检索语句语义片段获取方法的流程图;
图2是本发明另一个实施例的基于人工智能的检索语句语义片段获取方法的流程图;
图3是本发明一个实施例的基于人工智能的检索语句语义片段获取装置的结构示意图;
图4是本发明另一个实施例的基于人工智能的检索语句语义片段获取装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明各实施例针对现有技术中,通常使用人工编辑的模板进行query的语义片段挖掘,由于需要人工编辑积累,因此浪费了人力资源,不利于自动化实现,且由于模板不够灵活,只能识别固定格式的语句,这就导致了语义片段的识别效果差,query的检索结果无法满足用户的需求的问题,提出一种基于人工智能的检索语句语义片段获取方法。
本发明实施例提供的基于人工智能的检索语句语义片段获取方法,通过根据检索语句中包括的第一主体词,与语义片段集中各语义片段间的关联度,确定与检索语句对应的目标语义片段集。实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
下面参考附图描述本发明实施例的基于人工智能的检索语句语义片段获取方法、装置及终端。
图1是本发明一个实施例的基于人工智能的检索语句语义片段获取方法的流程图。
如图1所示,该基于人工智能的检索语句语义片段获取方法包括:
步骤101,对获取的检索语句进行预处理,确定所述检索语句中包括的第一主体词及语义片段集。
其中,本发明实施例提供的基于人工智能的检索语句语义片段获取方法的执行主体,为本发明实施例提供的基于人工智能的检索语句语义片段获取装置,该装置可以被配置在任何终端中,以获取与检索语句对应的目标语义片段集。
具体的,步骤101可以包括:
步骤101a,对获取的检索语句进行切词处理,确定所述检索语句中包含的分词序列。
具体的,获取了检索语句后,可以利用哈希表、字典树(TRIE)等方法,对检索语句进行切词处理,以确定检索语句中包含的分词序列。
步骤101b,根据预设的主体词列表,确定所述分词序列中包含的第一主体词。
具体的,可以预先从历史检索数据中,挖掘名词资源,将挖掘出的名词按频次过滤,取高频部分构建主体词列表,从而根据预设的主体词列表,确定分词序列中包含的第一主体词。
可以理解的是,检索语句中的主体词,通常为“电影”、“歌曲”等的普通名词,或餐馆名、电影名等的专名实体词。因此,在本发明实施例中,主体词列表,可以包括普通名词列表、专名实体词列表等。
具体的,步骤101b可以包括:
判断所述检索语句的句尾包括的第一分词,是否在预设的名词列表中;
若是,则确定所述第一分词为所述第一主体词;
若否,则判断所述检索语句的句首包括的第二分词,是否在预设的专名实体词列表;
若在,确定所述第二分词为所述第一主体词。
可以理解的是,普通名词通常出现在检索语句的句尾,专名实体词通常出现在检索语句的句首。比如,检索语句q1=“适合同学聚餐的餐馆”,“适合同学聚餐”用于限定普通名词“餐馆”;检索语句q2=“三生三世十里桃花几月几号上映”,“几月几号上映”用于描述专名实体词“三生三世十里桃花”上映时间这个维度属性。
因此,在本发明实施例中,可以通过检索语句的句尾和句首分别包括的分词,确定分词序列中包括的第一主体词。
具体的,可以优先判断检索语句的句尾包括的第一分词,是否在预设的名词列表中,若在,则将第一分词确定为第一主体词。若检索语句的句尾包括的第一分词,不在预设的名词列表中,再判断检索语句的句首包括的第二分词,是否在预设的专名实体词列表中,若在,则确定第二分词为第一主体词。
举例来说,假设名词列表中包括“电影”、“电视”、“歌曲”、“小说”等等,专名实体词列表中包括“三生三世十里桃花”、“肯德基”、“星巴克”等等。检索语句q1=“找一部不用付费的搞笑英文电影”,由于q1的句尾包括的分词“电影”在预设的名词列表中,则可以确定“电影”为第一主体词。检索语句q2=“三生三世十里桃花几月几号上映”,由于q2的句尾包括的分词“上映”不在预设的名词列表中,而q2的句首包括的分词“三生三世十里桃花”在预设的专名实体词列表中,则可以确定“三生三世十里桃花”为第一主体词。
值得注意的是,对检索语句进行切词处理后,检索语句的句尾包括的第一分词,或句首包括的第二分词,可能分别有粒度不同的情况,且不同粒度的分词可能都包括在预设的主体词列表中,则在本发明实施例中,可以选取最长的分词作为第一主体词。
比如,若对检索语句进行切词处理后,确定句首包括的分词既可以为“三生三世”,也可以为“三生三世十里桃花”,而这两个分词都包括在预设的专名实体词列表中,则可以将“三生三世十里桃花”确定为第一主体词。
需要说明的是,通过检索语句的句尾和句首分别包括的分词,确定分词序列中包括的第一主体词时,对句尾包括的第一分词和句首包括的第二分词进行判断的先后顺序,可以是预先确定的,也可以是根据需要确定的,此处不作限制。
比如,可以预先设置先判断检索语句的句尾包括的第一分词是否在预设的名词列表中,再判断检索语句的句首包括的第二分词是否在预设的专名实体词列表中。
或者,若由历史检索数据可知,在预设的一段时间内,主体词80%的情况下位于检索语句的句首,则可以优先判断句首包括的第二分词是否在预设的专名实体词列表中,若在,则将第二分词确定为第一主体词;否则,判断句尾包括的第一分词是否在预设的名词列表中,若在,则将第一分词确定为第一主体词。
另外,若由历史检索数据可知,主体词在检索语句中的位置发生改变,还可以根据历史检索数据,对第一分词和第二分词的判断顺序进行调整。
具体的,确定了检索语句中包括的第一主体词后,即可确定语义片段集中的各语义片段。
具体实现时,可以分别将检索语句中相邻的分词组成的文本片段与第一主体词拼接组成子query,并在预先构建的query数据库中进行检索。若在query数据库中检索到该子query,即可确定该文本片段为语义片段。
举例来说,假设检索语句q1=“找一部不用付费的搞笑英文电影”,q1包含的分词序列中,包括分词“找”、“一”“部”、“不”、“用”、“付费”、“的”、“搞笑”、“英文”、“电影”。其中,“电影”为第一主体词。q1中相邻的分词组成的文本片段与“电影”拼接成的子query,如“找电影”、“一部电影”、“找一部电影”、“不用付费的电影”、“付费的电影”、“不用付费的搞笑电影”、“英文电影”、“搞笑电影”、“搞笑英文电影”等,可以在query数据库中检索到;而如“不用电影”在query数据库中无法检索到。因此,可以确定q1中包括的语音片段集中,包括语义片段“找”、“一部”、“找一部”、“不用付费的”、“付费的”、“不用付费的搞笑”、“英文”、“搞笑”、“搞笑英文”。
步骤102,根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度。
其中,关联度,用来表征各语义片段与第一主体词之间关系的紧密程度。其可以根据各语义片段与第一主体词组成的子query的检索频次、满意度和/或点击量值确定。
需要说明的是,关联度,可以直接利用检索频次、满意度或点击量值表征,比如,某语义片段与第一主体词间的关联度,可以是检索频次=1000。
或者,关联度也可以利用根据检索频次、满意度和/或点击量值综合确定的值或等级表征。比如,可以预先设置检索频次小于1000、满意度小于10%、且点击量小于1000的关联度为一级;检索频次在1000到2000之间、满意度在10%到20%之间、且点击量在1000到2000之间的关联度为二级,等等。
具体的,步骤102可以包括:
步骤102a,对历史检索数据进行数据训练,确定历史检索数据中包含的各语义片段与各主体词间的关联度表。
步骤102b,通过查询所述关联度表,确定所述语义片段集中各语义片段与所述第一主体词间的关联度。
具体实现时,通过首先对历史检索数据进行数据训练,以确定历史检索数据中包含的各语义片段与各主体词间的检索频次、点击量和/或满意度等,进而创建各语义片段与各主体词间的关联度表。从而,在确定语义片段集中各语义片段与第一主体词后,可以通过查询关联度表,确定语义片段集中各语义片段与第一主体词间的关联度。
在本发明一种可能的实现形式中,为了提高对历史检索数据的训练速度,对历史检索数据进行数据训练前,还可以对历史检索数据进行清洗。即,在步骤102a之前,还可以包括:
获取历史检索数据;
根据检索频次、满意度、和/或点击量,对所述历史检索数据进行清洗。
相应的,步骤102a中对历史检索数据进行数据训练,可以包括:
对清洗后的历史检索数据进行数据训练。
具体的,可以预先设置检索频次、满意度、点击量分别对应的阈值,从而在获取了历史检索数据后,可以将检索频次、满意度、点击量均小于预设阈值的检索数据丢弃,以实现对历史检索数据的清洗。并对清洗后的历史检索数据进行数据训练,以确定历史检索数据中包括的各语义片段与各主体词间的关联度。
步骤103,根据所述各语义片段与所述第一主体词间的关联度,对所述语义片段集进行过滤处理,确定与所述检索语句对应的目标语义片段集。
可以理解的是,通过对获取的检索语句进行预处理,确定的检索语句中包括的各语义片段之间,可能存在交叠的现象,即切分边界存在歧义。比如,检索语句q1=“找一部不用付费的搞笑英文电影”中,包括语义片段“不用付费的”和“付费的”、“搞笑英文”和“搞笑”及“英文”。因此,在本发明实施例中,还需要对语义片段集进行过滤处理,以确定与检索语句对应的目标语义片段集。
具体的,可以预先设置一个关联度的阈值,若确定的语义片段集中,某语义片段可以切分成多个子语义片段,且每个子语义片段与第一主体词间的关联度都大于预设的阈值,则可以对该语义片段继续切分,将每个子语义片段确定为目标语义片段;若存在某个子语义片段与第一主体词间的关联度小于预设的阈值,则将语义片段确定为目标语义片段。
需要说明的是,在本发明实施例中,可以将“的”、“在”等设置为停用词,以节省存储空间及提高处理效率。
举例来说,假设检索语句q1=“找一部不用付费的搞笑英文电影”,通过对q1进行预处理,可以确定第一主体词为“电影”,语义片段集中包括的语义片段为:“找”、“一部”、“找一部”、“不用付费的”、“付费的”、“不用付费的搞笑”、“英文”、“搞笑”、“搞笑英文”。预设的关联度阈值为检索频次=10000。
其中,语义片段“不用付费的”可以切分为两个子语义片段“不用”和“付费”。根据关联度表,确定“不用电影”的检索频次=10,“付费电影”的检索频次=15000。可以看出,“不用电影”的检索频次小于预设的阈值,因此可以从语义片段集中移除“付费的”,将“不用付费的”确定为目标语义片段。
另外,语义片段“搞笑英文”可以切分成两个子语义片段“搞笑”和“英文”。根据关联度表,确定“搞笑电影”的检索频次=13000,“英文电影”的检索频次=14000。也就是说,“搞笑”和“英文”分别与“电影”组成的子query的检索频次都大于预设的阈值,则可以从语义片段集中移除“搞笑英文”,将“搞笑”和“英文”确定为目标语义片段。
本发明实施例的基于人工智能的检索语句语义片段获取方法,首先对获取的检索语句进行预处理,确定检索语句中包括的第一主体词及语义片段集,然后根据历史检索语句,确定语义片段集中各语义片段与第一主体词间的关联度,最后根据各语义片段与第一主体词间的关联度,对语义片段进行过滤处理,以确定与检索语句对应的目标语义片段集。由此,实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
通过上述分析可知,可以根据检索语句中包括的第一主体词,与语义片段集中各语义片段间的关联度,确定与检索语句对应的目标语义片段集。在实际运用中,还可以对确定的目标语义片段集进行过滤,以提高语义片段集的准确性。下面结合图2,对上述情况进行具体说明。
图2是本发明另一个实施例的基于人工智能的检索语句语义片段获取方法的流程图。
如图2所示,该方法还可以包括:
步骤201,根据所述历史检索数据,依次确定与目标语义片段集中各目标语义片段组合后被检索的主体词的数量。
步骤202,根据与各目标语义片段组合后被检索的主体词的数量,确定各目标语义片段的置信度。
具体的,确定了目标语义片段集后,可以根据历史检索数据,依次确定与目标语义片段集中各目标语义片段组合后被检索的主体词的数量。若与某目标语义片段组合后被检索的主体词的数量较少,即该目标语义片段只能修饰较少数的主体词,则该目标语义片段的置信度较低;若与某目标语义片段组合后被检索的主体词的数量较多,即该目标语义片段可以修饰较多的主体词,则该目标语义片段的置信度较高。
步骤203,根据所述各目标语义片段的置信度,对所述目标语义片段集进行更新处理。
具体的,可以预先设置一个阈值,若目标语义片段集中,某目标语义片段的置信度低于预设的阈值,则可以将该目标语义片段舍弃,以实现对目标语义片段集的更新。
可以理解的是,确定了与检索语句对应的目标语义片段集后,即可根据目标语义片段集,进行检索,从而获取与目标语义片段集中各目标语义片段对应的检索结果。
相应的,在本发明一种可能的实现形式中,还可以根据目标语义片段集中各目标语义片段的置信度,确定与检索语句对应的检索结果的显示方式。
即,在步骤202之后,还可以包括:
根据所述各目标语义片段获取检索结果;
根据所述各目标语义片段的置信度,确定所述检索结果的显示顺序。
具体的,根据各目标语义片段获取检索结果后,可以根据各目标语义片段的置信度高低,将置信度较高的目标语义片段对应的检索结果优先显示,以更好的满足用户需求,改善用户体验。
本发明实施例的基于人工智能的检索语句语义片段获取方法,确定与检索语句对应的目标语义片段集后,首先根据历史检索数据,依次确定与目标语义片段集中各目标语义片段组合后被检索的主体词的数量,然后根据与各目标语义片段组合后被检索的主体词的数量,确定各目标语义片段的置信度,最后根据各目标语义片段的置信度,对目标语义片段集进行更新处理。由此,实现了与检索语句对应的目标语义片段集的获取,及对目标语义片段集的更新处理,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
图3是本发明一个实施例的基于人工智能的检索语句语义片段获取装置的结构示意图。
如图3所示,该基于人工智能的检索语句语义片段获取装置包括:
第一确定模块31,用于对获取的检索语句进行预处理,确定所述检索语句中包括的第一主体词及语义片段集;
第二确定模块32,用于根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度;
第三确定模块33,用于根据所述各语义片段与所述第一主体词间的关联度,对所述语义片段集进行过滤处理,确定与所述检索语句对应的目标语义片段集。
具体的,本实施例提供的基于人工智能的检索语句语义片段获取装置,可以被配置在任何终端中,用于执行如上述实施例所示的基于人工智能的检索语句语义片段获取方法,以获取与检索语句对应的目标语义片段集。
在本发明实施例一种可能的实现形式中,上述第一确定模块31,可以包括:
第一确定单元,用于对获取的检索语句进行切词处理,确定所述检索语句中包含的分词序列;
第二确定单元,用于根据预设的主体词列表,确定所述分词序列中包含的第一主体词。
具体的,上述第二确定单元,具体用于:
判断所述检索语句的句尾包括的第一分词,是否在预设的名词列表中;
若是,则确定所述第一分词为所述第一主体词;
若否,则判断所述检索语句的句首包括的第二分词,是否在预设的专名实体词列表;
若在,确定所述第二分词为所述第一主体词。
在本申请实施例另一种可能的实现形式中,上述第二确定模块32,包括:
第三确定单元,用于对历史检索数据进行数据训练,确定历史检索数据中包含的各语义片段与各主体词间的关联度表;
第四确定单元,用于通过查询所述关联度表,确定所述语义片段集中各语义片段与所述第一主体词间的关联度。
在本申请实施例另一种可能的实现形式中,上述第二确定模块32,还包括:
获取单元,用于获取历史检索数据;
处理单元,用于根据检索频次、满意度、和/或点击量,对所述历史检索数据进行清洗;
所述第三确定单元,具体用于:
对清洗后的历史检索数据进行数据训练。
需要说明的是,前述对基于人工智能的检索语句语义片段获取方法实施例的解释说明也适用于该实施例的基于人工智能的检索语句语义片段获取装置,此处不再赘述。
本发明实施例的基于人工智能的检索语句语义片段获取装置,首先对获取的检索语句进行预处理,确定检索语句中包括的第一主体词及语义片段集,然后根据历史检索语句,确定语义片段集中各语义片段与第一主体词间的关联度,最后根据各语义片段与第一主体词间的关联度,对语义片段进行过滤处理,以确定与检索语句对应的目标语义片段集。由此,实现了与检索语句对应的目标语义片段集的获取,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
图4是本发明另一个实施例的基于人工智能的检索语句语义片段获取装置的结构示意图。
如图4所示,在图3的基础上,该基于人工智能的检索语句语义片段获取装置,还包括:
第四确定模块41,用于根据所述历史检索数据,依次确定与目标语义片段集中各目标语义片段组合后被检索的主体词的数量;
第五确定模块42,用于根据与各目标语义片段组合后被检索的主体词的数量,确定各目标语义片段的置信度;
处理模块43,用于根据所述各目标语义片段的置信度,对所述目标语义片段集进行更新处理。
获取模块44,用于根据所述各目标语义片段获取检索结果;
第六确定模块45,用于根据所述各目标语义片段的置信度,确定所述检索结果的显示顺序。
需要说明的是,前述对基于人工智能的检索语句语义片段获取方法实施例的解释说明也适用于该实施例的基于人工智能的检索语句语义片段获取装置,此处不再赘述。
本发明实施例的基于人工智能的检索语句语义片段获取装置,首先对获取的检索语句进行预处理,确定检索语句中包括的第一主体词及语义片段集,然后根据历史检索语句,确定语义片段集中各语义片段与第一主体词间的关联度,最后根据各语义片段与第一主体词间的关联度,对语义片段进行过滤处理,以确定与检索语句对应的目标语义片段集。由此,实现了与检索语句对应的目标语义片段集的获取,及对目标语义片段集的更新处理,由于不需要人工编辑抽取模板,节省了人力资源,有利于自动化实现,且语义片段的获取方式灵活,能自适应挖掘各种粒度的语义片段,提高了语义片段的识别效果,从而使query的检索结果可以更好的满足用户需求,改善了用户体验。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当上述处理器执行所述程序时实现如前述实施例中的基于人工智能的检索语句语义片段获取方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时实现如前述实施例中的基于人工智能的检索语句语义片段获取方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如前述实施例中的基于人工智能的检索语句语义片段获取方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种基于人工智能的检索语句语义片段获取方法,其特征在于,包括:
对获取的检索语句进行预处理,确定所述检索语句中包括的第一主体词及语义片段集;
根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度;
根据所述各语义片段与所述第一主体词间的关联度,对所述语义片段集进行过滤处理,确定与所述检索语句对应的目标语义片段集。
2.如权利要求1所述的方法,其特征在于,所述确定所述检索语句中包括的第一主体词及语义片段集,包括:
对获取的检索语句进行切词处理,确定所述检索语句中包含的分词序列;
根据预设的主体词列表,确定所述分词序列中包含的第一主体词。
3.如权利要求2所述的方法,其特征在于,所述预设的主体词列表,包括预设的名词列表和预设的专名实体词列表,所述确定所述分词序列中包含的第一主体词,包括:
判断所述检索语句的句尾包括的第一分词,是否在预设的名词列表中;
若是,则确定所述第一分词为所述第一主体词;
若否,则判断所述检索语句的句首包括的第二分词,是否在预设的专名实体词列表;
若在,确定所述第二分词为所述第一主体词。
4.如权利要求1所述的方法,其特征在于,所述根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度,包括:
对历史检索数据进行数据训练,确定所述历史检索数据中包含的各语义片段与各主体词间的关联度表;
通过查询所述关联度表,确定所述语义片段集中各语义片段与所述第一主体词间的关联度。
5.如权利要求4所述的方法,其特征在于,所述对历史检索数据进行数据训练之前,还包括:
获取历史检索数据;
根据检索频次、满意度、和/或点击量,对所述历史检索数据进行清洗;
所述对历史检索数据进行数据训练,包括:
对清洗后的历史检索数据进行数据训练。
6.如权利 要求1-5任一所述的方法,其特征在于,所述确定与所述检索语句对应的目标语义片段集之后,还包括:
根据所述历史检索数据,依次确定与目标语义片段集中各目标语义片段组合后被检索的主体词的数量;
根据与各目标语义片段组合后被检索的主体词的数量,确定各目标语义片段的置信度;
根据所述各目标语义片段的置信度,对所述目标语义片段集进行更新处理。
7.如权利要求6所述的方法,其特征在于,所述确定各目标语义片段的置信度之后,还包括:
根据所述各目标语义片段获取检索结果;
根据所述各目标语义片段的置信度,确定所述检索结果的显示顺序。
8.一种基于人工智能的检索语句语义片段获取装置,其特征在于,包括:
第一确定模块,用于对获取的检索语句进行预处理,确定所述检索语句中包括的第一主体词及语义片段集;
第二确定模块,用于根据历史检索数据,确定所述语义片段集中各语义片段与所述第一主体词间的关联度;
第三确定模块,用于根据所述各语义片段与所述第一主体词间的关联度,对所述语义片段集进行过滤处理,确定与所述检索语句对应的目标语义片段集。
9.如权利要求8所述的装置,其特征在于,所述第一确定模块,包括:
第一确定单元,用于对获取的检索语句进行切词处理,确定所述检索语句中包含的分词序列;
第二确定单元,用于根据预设的主体词列表,确定所述分词序列中包含的第一主体词。
10.如权利要求9所述的装置,其特征在于,所述预设的主体词列表,包括预设的名词列表和预设的专名实体词列表,所述第二确定单元,具体用于:
判断所述检索语句的句尾包括的第一分词,是否在预设的名词列表中;
若是,则确定所述第一分词为所述第一主体词;
若否,则判断所述检索语句的句首包括的第二分词,是否在预设的专名实体词列表;
若在,确定所述第二分词为所述第一主体词。
11.如权利要求8所述的装置,其特征在于,所述第二确定模块,包括:
第三确定单元,用于对历史检索数据进行数据训练,确定历史检索数据中包含的各语义片段与各主体词间的关联度表;
第四确定单元,用于通过查询所述关联度表,确定所述语义片段集中各语义片段与所述第一主体词间的关联度。
12.如权利要求11所述的装置,其特征在于,所述第二确定模块,还包括:
获取单元,用于获取历史检索数据;
处理单元,用于根据检索频次、满意度、和/或点击量,对所述历史检索数据进行清洗;
所述第三确定单元,具体用于:
对清洗后的历史检索数据进行数据训练。
13.如权利 要求8-12任一所述的装置,其特征在于,还包括:
第四确定模块,用于根据所述历史检索数据,依次确定与目标语义片段集中各目标语义片段组合后被检索的主体词的数量;
第五确定模块,用于根据与各目标语义片段组合后被检索的主体词的数量,确定各目标语义片段的置信度;
处理模块,用于根据所述各目标语义片段的置信度,对所述目标语义片段集进行更新处理。
14.如权利要求13所述的装置,其特征在于,还包括:
获取模块,用于根据所述各目标语义片段获取检索结果;
第六确定模块,用于根据所述各目标语义片段的置信度,确定所述检索结果的显示顺序。
15.一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于人工智能的检索语句语义片段获取方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于人工智能的检索语句语义片段获取方法。
CN201710466186.3A 2017-06-19 2017-06-19 基于人工智能的检索语句语义片段获取方法、装置及终端 Active CN107357830B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710466186.3A CN107357830B (zh) 2017-06-19 2017-06-19 基于人工智能的检索语句语义片段获取方法、装置及终端
US15/854,064 US10621391B2 (en) 2017-06-19 2017-12-26 Method and apparatus for acquiring semantic fragment of query based on artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710466186.3A CN107357830B (zh) 2017-06-19 2017-06-19 基于人工智能的检索语句语义片段获取方法、装置及终端

Publications (2)

Publication Number Publication Date
CN107357830A CN107357830A (zh) 2017-11-17
CN107357830B true CN107357830B (zh) 2020-07-28

Family

ID=60272329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710466186.3A Active CN107357830B (zh) 2017-06-19 2017-06-19 基于人工智能的检索语句语义片段获取方法、装置及终端

Country Status (2)

Country Link
US (1) US10621391B2 (zh)
CN (1) CN107357830B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033338A (zh) * 2018-01-11 2019-07-19 北京搜狗科技发展有限公司 推荐方法和装置、用于推荐的装置
BR112021010468A2 (pt) * 2018-12-31 2021-08-24 Intel Corporation Sistemas de segurança que empregam inteligência artificial
JP7408957B2 (ja) * 2019-09-05 2024-01-09 コニカミノルタ株式会社 発想提案支援システム、発想提案支援装置、発想提案支援方法及びプログラム
CN111611799B (zh) * 2020-05-07 2023-06-02 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置
CN117093696B (zh) * 2023-10-16 2024-02-02 浙江同花顺智能科技有限公司 一种大语言模型的提问文本生成方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN105843849A (zh) * 2016-03-15 2016-08-10 北京百度网讯科技有限公司 搜索方法及装置
CN106446018A (zh) * 2016-08-29 2017-02-22 北京百度网讯科技有限公司 基于人工智能的查询信息处理方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US20150026153A1 (en) * 2013-07-17 2015-01-22 Thoughtspot, Inc. Search engine for information retrieval system
CN105446952B (zh) * 2014-08-20 2019-03-19 国际商业机器公司 用于处理语义片段的方法和系统
US20170103059A1 (en) * 2015-10-08 2017-04-13 International Business Machines Corporation Method and system for preserving sensitive information in a confidential document
RU2639655C1 (ru) * 2016-09-22 2017-12-21 Общество с ограниченной ответственностью "Аби Продакшн" Система для создания документов на основе анализа текста на естественном языке

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN105843849A (zh) * 2016-03-15 2016-08-10 北京百度网讯科技有限公司 搜索方法及装置
CN106446018A (zh) * 2016-08-29 2017-02-22 北京百度网讯科技有限公司 基于人工智能的查询信息处理方法和装置

Also Published As

Publication number Publication date
CN107357830A (zh) 2017-11-17
US10621391B2 (en) 2020-04-14
US20180365225A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
CN107357830B (zh) 基于人工智能的检索语句语义片段获取方法、装置及终端
CN108052659B (zh) 基于人工智能的搜索方法、装置和电子设备
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN106649783B (zh) 一种同义词挖掘方法和装置
CN107102981B (zh) 词向量生成方法和装置
US9519464B2 (en) Code recommendation
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US20150074112A1 (en) Multimedia Question Answering System and Method
EP3869511A1 (en) Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN108090178B (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN111078832A (zh) 一种智能客服的辅助应答方法及系统
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN104281716A (zh) 平行语料的对齐方法及装置
CN108875743B (zh) 一种文本识别方法及装置
CN110555108B (zh) 事件脉络生成方法、装置、设备及存储介质
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN102982063A (zh) 一种基于关系关键词扩展的元组精化的控制方法
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant