CN112507198A - 用于处理查询文本的方法、装置、设备、介质和程序 - Google Patents

用于处理查询文本的方法、装置、设备、介质和程序 Download PDF

Info

Publication number
CN112507198A
CN112507198A CN202011511011.8A CN202011511011A CN112507198A CN 112507198 A CN112507198 A CN 112507198A CN 202011511011 A CN202011511011 A CN 202011511011A CN 112507198 A CN112507198 A CN 112507198A
Authority
CN
China
Prior art keywords
phrase
similarity
target
candidate
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011511011.8A
Other languages
English (en)
Other versions
CN112507198B (zh
Inventor
林英展
林大勇
陈炳金
陈万顺
黄世维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011511011.8A priority Critical patent/CN112507198B/zh
Publication of CN112507198A publication Critical patent/CN112507198A/zh
Application granted granted Critical
Publication of CN112507198B publication Critical patent/CN112507198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了用于处理查询文本的方法、装置、设备、介质和程序,涉及数据处理领域,尤其涉及智能搜索领域。具体实现方案为:基于从查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,一组候选短语中的候选短语与关键短语具有至少一个相同的文字单元;基于相同的文字单元的数目,确定关键短语与候选短语之间的目标相似度,目标相似度指示关键短语和候选短语之间的匹配程度;以及基于目标相似度从一组候选短语中选择目标短语。通过该方法,可以避免标注的高成本,同时改时了扩展的效果,提高获取的查询结果的准确率。

Description

用于处理查询文本的方法、装置、设备、介质和程序
技术领域
本公开涉及数据处理技术领域,尤其涉及智能搜索领域的处理查询文本的方法、装置、设备、介质和程序。
背景技术
随着信息技术的快速发展,可用的数据量越来越多。对于大量的数据,设计了很多可以从大量数据查询有用信息的方法和算法。例如,现在有很多搜索引擎可用于帮助用户查询各种信息。
随着技术的发展,出现了结构化知识问答。这种问答是基于语义理解和知识匹配的通用问答技术。一般只需要提供结构化的表格,便能快速的建立支持复杂查询的精准问答服务。然而,在这种结构化知识问答的处理过程中还存在许多需要解决的问题。
发明内容
本公开提供了一种用于处理查询文本的方法、装置、设备、介质和程序。
根据本公开的第一方面,提供了一种用于处理查询文本的方法。该方法包括:基于从查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,一组候选短语中的候选短语与关键短语具有至少一个相同的文字单元。该方法还包括基于相同的文字单元的数目,确定关键短语与候选短语之间的目标相似度,目标相似度指示关键短语和候选短语之间的匹配程度。该方法还包括基于目标相似度从一组候选短语中选择目标短语。
根据本公开的第二方面,提供了一种用于处理查询文本的装置。该装置包括一组候选短语获取模块,被配置为基于从查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,一组候选短语中的候选短语与关键短语具有至少一个相同的文字单元;目标相似度确定模块,被配置为基于相同的文字单元的数目,确定关键短语与候选短语之间的目标相似度,目标相似度指示关键短语和候选短语之间的匹配程度;以及目标短语选择模块,被配置为基于目标相似度从一组候选短语中选择目标短语。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开的第一方面的方法。
根据本公开的第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据本公开的第一方面的方法。
根据本公开的第五方面,提供一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本公开的第一方面的方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图;
图2示出了根据本公开的一些实施例的用于处理查询文本的方法200的流程图;
图3示出了根据本公开的一些实施例的用于处理查询文本的方法300的流程图;
图4示出了根据本公开的一些实施例的用于处理查询文本的装置400的框图;以及
图5示出了能够实施本公开的多个实施例的设备500的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
结构化知识问答(“Structured Knowledge Questions and Answers”,也称为KBQA)是一种基于现有结构化知识进行提问,得到答案的技术。在实现中只需提供结构化数据集合,便能快速地搭建支持复杂查询的精准问答服务。
结构化数据集合是以结构化的方式存储的数据集合,并且遵守预先确定的数据格式和长度规范。结构化的数据集合可以存储在表格中,也可以以三元组的形式存储。例如表格的第一行表示对象属性,其他行表示属性的值,例如存储车辆信息的表格,第一行为车名、价格、座位数等,下面的行则存储每个车名对应的车辆的属性值。
在查询过程中,利用提供的结构化表格来获得查询结果。通常先获取用户查询中的关键短语,与表格中的短语进行匹配。如果能够精确匹配,则可以找出对应的查询结果。然而,在表格内如果无法直接命中用户的查询,导致无法给出结果。此时,需要通过对查询进行泛化,找出具有同样含义的短语来进行查找。
例如,用户上传的表格中,有“中国农业银行”条目内容,而用查询文本表述为:“查一下农行的股价”,此时,无法精准匹配“农行”与“中国农业银行”,需要通过一定的语义理解泛化(如增加同义词表“农行”-“中国农业银行”),使得两者匹配上。
在对查询文本的关键短语进行泛化时,通常使用别名资源挖掘和字面模糊匹配两种技术。对于别名资源挖掘技术,通过对用户上传表格中的内容进行别名的挖掘,如“中国农业银行”,通过人工标注,或者通过对片段的候选挖掘(搜索日志的平行语料),得到别名资源“农行”、“中国农行”等。对于字面模糊匹配,则通过对比查询文本中的文字单元与表格中的内容,能够部分命中查询文本中的文字单元的内容,将其作为潜在的候选项,比如“农”字被“中国农业银行”所包含,即可命中该内容。
然而,对于别名资源挖掘方法,人工标注成本高,每次用户上传表格,都需要针对该领域缺失的别名进行收集。由于用户上传内容为开放领域所有可能内容,人工跟进标注的成本极高。经外,查询挖掘效果与语料高度相关。用户上传语料为开放域所有可能场景,因此当挖掘语料的场景与表格并不匹配时,出现无法挖到对应别名、别名质量差、召回错误的问题。
而对于字面模糊匹配方式,则由于仅仅考虑包含的字,容易造成召回错误别名或者过多别名(如“农行”,还能召回“农村”)。使得泛化的结果比较差,导致用户查询不到对应的信息。
为了至少解决上述问题,根据本公开的实施例,提出一种的改进方案。在该方案中,计算设备基于从查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,该一组候选短语中的候选短语与关键短语具有至少一个相同的文字单元。然后计算设备基于相同的文字单元的数目,确定关键短语与所述候选短语之间的目标相似度。计算设备基于目标相似度从一组候选短语中选择目标短语。通过该方法,可以避免用于标注的高成本,同时改时了扩展的效果,提高获取的查询结果的准确率。
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境100包括计算设备106。
计算设备106用于对获得的查询文本102进行处理来获得与查询文本102中的关键短语相对应的扩展的目标短语104。示例计算设备106包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。其中服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual PrivateServer",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
查询文本102是由用户输入的用于查找相关信息的文本。计算设备106用于对查询文本102进行分词处理来获得查询文本中的关键短语108。在一些实施例中,在对比文件102进行分词处理后,语句中常用助词等不表示信息的短语不用作关键短语。
然后利用关键短语108从结构化数据集合中获取与关键短语108相关联的一组候选短语110。在一些实施例中,该一组候选短语中的每个候选短语与关键短语108至少具有一个相同的文字单元。例如,关键短语108和候选短语至少具有一个相同的文字或单词。在一些实施例中,计算设备106仅在从查询文本102获得的关键短语108不能精确的找到查询结果时才去查找一组候选短语110。然后计算设备106基于关键短语108与一组候选短语110中的候选短语的相似度来选取目标短语104以作为关键短语的扩展。
在一些实施例中,计算设备106可以利用目标短语104来进一步获取查询结果。
通过该方法,可以避免标注的高成本,同时改时了扩展的效果,提高获取的查询结果的准确率。
上面图1示出了本公开的多个实施例的能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的用于处理查询文本的方法200的流程图。图2中的方法200中由图1中的计算设备106或任意合适的计算设备执行。
在框202处,基于从查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,一组候选短语中的候选短语与关键短语具有至少一个相同的文字单元。例如,图1中的计算设备106从查询文本102获得的关键短语108。然后计算设备106利用关键短语108从结构化数据集合中获取一组候选短语110,该一组候选短语110中的候选短语与关键短语108具有至少一个相同的文字单元。在一些实施例中,候选短语与关键短语108至少具有一个相同的文字。在一些实施例中,候选短语与关键短语108至少具有一个相同的单词。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,计算设备106获取查询文本102。然后计算设备106对查询文本进行分词处理以获得关键短语。对查询文本进行分词处理可以采用能够对文本进行分词的任意合适的技术实现。然后,计算设备106根据关键短语108从结构化数据集合查找一组候选短语。通过该方式,可以快速的确定一组候选短语,提高获取候选短语的效率。
在一些实施例中,计算设备106确定从结构化数据集合中是否找到与关键短语108精确匹配的目标短语。如果能够从结构化数据集合中找到精确匹配的目标短语,则可以直接获得查询结果。此时,不需要对关键短语108进行泛化或扩展。因此,不需要再获取候选短语。如果未找到与关键短语108精确匹配的目标短语,从结构化数据集合中获取一组候选短语。通过该方式,可以快速的为未精确匹配的关键短语108查找到合适的目标短语,提高了查找效率。
在框204处,基于相同的文字单元的数目,确定关键短语与候选短语之间的目标相似度,目标相似度指示关键短语和候选短语之间的匹配程度。例如图1中的计算设备106利用相同的文字单元的数目来计算关键短语108与候选短语之间的目标相似度,目标相似度指示关键短语和候选短语之间的匹配程度。
在一些实施例中,计算设备106可以利用相同文字单元的数目和候选短语中的文字单元的数目确定关键短语与候选短语之间的共现相似度。共现相似度可通过如下方式确定:确定关键短语和候选片段共同具有的文字单元,然后确定共同具有的文字单元占候选短语的比例。因此共现相似度用于衡量两个片段之间的文字单元的匹配程度。
例如,查询文本为“小萨的价格是多少?”,分词后得到的关键短语“小萨”。结构化数据结构中的表格中车名短语为“帕萨特”,则可以通过倒排索引,由“萨”将“帕萨特”召回。此时,查询文本中的关键词短语“小萨”和表格中的候选短语“帕萨特”就可以进行共现相似度的计算。共现相似度Sim1通过下式来确定:
Sim1=common(A,B)/len(B)
其中A和B为两个短语,例如A表示关键短语,B表示获得的候选短语,common(A,B)表示关键短语A和候选短语B中共有的文字单元的数目,len(B)表示候选短语B中的文字单元的数目。因此,在A为“小萨”,B为“帕萨特”时,Sim1=common(“小萨”,“帕萨特”)/len(“帕萨特”)=1/3=0.33。
备选地或附加地,该共现相似度可以作为目标相似度来用于获取目标短语。通过该方式,可以使得能够获得更准确的目标短语。
在一些实施例中,由于共现相似度仅是找出具有相同字数较多的候选短语,然而其并不能保证文字之间的相对顺序。因此,可能选出文字相对位置相反的候选短语。为了减少获取这种不正确的候选文本的可能性。计算设备还可以通过确定关键短语与候选短语之间的无序度相似度来避免这种情况。
计算设备106确定基于相同文字单元的数目和相同文字单元中的每个文字单元在关键短语和候选短语中的相对位置顺序来确定关键短语与候选短语之间的无序度相似度。
无序度相似度是用于指示关键短语和候选短语的文字单元级别的排序的相似程度,以衡量两者在表述顺序上的匹配程度。
例如查询文本为“保千里”,结构化数据集合的短语为“深圳新里程保理有限公司”,此时通过“保”和“里”两个字,即可召回结构化数据集合中的候选短语。在查询文本或关键短语中,“保”的相对位置为1,“里”的相对位置为2,但是在候选短语中,“保”的相对位置为2,“里”的相对位置为1。由此,可计算基于无序度的相似度。无序度=unorder(A,B),其中A和B表示两个短语,例如A表示关键短语,B表示候选短语。unorder(A,B)用于计算A和B共有的每个文字单元在A中的文字相对位置顺序与在B的相对文字顺序的差,然后再将获得的差求和。例如当A为“保千里”,B为“深圳新里程保理有限公司”时:
unorder(A,B)=unorder(“保千里”,“深圳新里程保理有限公司”)=is_unorder(“保”)+is_unorder(“里”)=1+1=2,其中is_unorder()表相同文字单元在短语A中的目标位置顺序与在短语B中的目标位置顺序的差值的绝对值。
因此,无序度相似度Sim2=common(A,B)/(unorder(A,B)+1)=2/(2+1)=0.67,其中common(A,B)表示两个短语A和B中相同的文字单元的数目。
备选地或附加地,计算设备106可以将无序度相似度作为目标相似度以用于从召回的候选短语中确定目标短语。通过该方式,可以硬准确的获得目标短语。
在一些实施例中,由于上述方式查找的候选短语可能还存在相同的文字间隔太远。由于间隔了太远,表示的意思可能并不准确了。为了避免将相同文本相距较远的候选短语确定为目标短语,还可以利用字符距离相似度。计算设备106基于相同文字单元的数目和候选短语中的相同文字单元之间的距离来确定关键短语与候选短语之间的字符距离相似度。
字符距离相似度其用于指示关键短语和候选短语之间的共同的文字单元是否紧密联系,衡量两者共同的文字单元的集中匹配程度。
例如查询文本或关键短语为“保千里”,结构化数据集合中的公司名短语为“深圳新里程保理有限公司”,此时通过“保”和“里”两个字,即可让查询文本召回上述结构化数据集合中的短语。在结构化数据集合的短语中,通过计算相同的文字单元之间的距离,来衡量集中匹配的程度,其计算方式如下:字符距离=loose(A,B),也可以称为松驰度,其用于计算两个短语A和B之间的相同的文字单元之间的文字距离。在短语A为“保千里”,B为“深圳新里程保理有限公司”时,例如loose(A,B)=losse(“保千里”,“深圳新里程保理有限公司”)=index(“保”)–index(“里”)=6–4=2,其中index()用于指示文字单元在短语中的文字位置。因此,字符距离相似度:Sim3=common(A,B)/(losse(A,B)+1)=2/(2+1)=0.67。
备选地或附加地,字符距离相似度可以用目标相似度。通过该方式,可以获得相同文字单元距离上更近的目标短语。
在一些实施例中,计算设备可以基于共现相似度、无序度相似度和字符距离相似度中的至少一项来获得目标相似度。在一些实施例中,计算设备106采用共现相似度、无序度相似度和字符距离相似度中任意一个作为目标相似度。在一些实施例中,计算设备106采用共现相似度、无序度相似度和字符距离相似度中的任意两个或三个的组合来形成目标相似度。通过上述方式,可以快速准确的查找出相似的目标短语。
在一些实施例中,计算设备106利用共现相似度、无序相似度和字符距离相似度中来获得目标相似度。计算设备106获取分别与共现相似度、无序度相似度和字符距离相似度相对应的权重。然后计算设备将权重应用于共现相似度、无序度相似度和字符距离相似度来获得目标相似度。通过该方式,可以根据不同的使用环境调整权重,使得能够快速适应应用环境,提高准确度。
因此,目标相似度Sim可以通过下式来计算:
Sim=w1*sim1+w2*sim2+w3*sim3=w1*common(A,B)/len(B)+w2*common(A,B)/(unorder(A,B)+1)+w3*common(A,B)/(losse(A,B)+1).
其中Sim表示目标相似度,sim1、sim2、sim3分别表示共现相似度、无序度相似度和字符距离相似,w1,w2和w3表示分配给三个相似度的权重,A和B表示要比较的两个短语;common(A,B)表示两个短语A和B中相同的文字单元的数目;len(B)表示候选短语B中的文字单元的数目;loose(A,B)用于计算两个短语A和B之间的相同的文字单元之间的文字距离;;unorder(A,B)用于计算A和B共有的每个文字单元在A中的文字相对位置顺序与在B的相对文字顺序的差。
对于不同的领域,不同相似度的重要程度不同。通过不同的权重,将所有的权重通过线性组合的方式,融合为一个统一的相似度,解决现有技术(模糊匹配)误召回问题的同时,也不会过度扼杀其泛化能力,而是针对不同的领域,灵活调整召回的强度,从而适配KBQA在不同任务上的效果。
在框206处,基于目标相似度从一组候选短语中选择目标短语。例如计算设备106从一组候选短语110中选择目标短语104。
在一些实施例中,计算设备106从一组候选短语中选择目标相似度超过阈值相似度的候选短语作为目标短语104。通过该方式,可以选择高相似度的目标短语,提高了获取目标短语的准确度。
在一些实施例中,计算设备106基于目标相似度对一组候选短语进行排序。然后计算设备从经排序的一组候选短语中获取预定数目的候选短语作为目标短语。通过该方式,选择高相似度的目标短语,提高了获取目标短语的准确度。
在一些实施例中,计算设备106使用目标短语来获得针对查询文本的查询结果。通过该方式可以获得更准确的查询结果,改时了用户体验。
通过该方法,可以避免用于标注的高成本,同时改时了扩展的效果,提高获取的查询结果的准确率。
上面结合图2描述了根据本公开的一些实施例的用于处理查询文本的方法200的流程图。下面结合图3描述用于处理查询文本的方法300的流程图。图3中的方法300中由图1中的计算设备106或任意合适的计算设备执行。
计算设备106在框302处获得查询文本。然后计算设备106在框304处对查询文本进行分词处理以获得分词。然后,在框306处,计算设备106利用分词中的关键分词来从表格字典308中索引回一组候选短语。然后在310处计算候选短语的相似度。在312处,计算设备106实施配置方式,例如对计算的各个相似度分配不同的权重来获得目标相似度。然后基于目标相似度,在框314处获得泛化结果,也称为扩展结果。然后利用泛化或扩展得到的目标短语查询表格以获得查询结果。
通过该方法,可以避免用于标注的高成本,同时改时了扩展的效果,提高获取的查询结果的准确率。
图4示出了根据本公开实施例的用于处理查询文本的装置400的示意性框图。如图4所示,装置400包括一组候选短语获取模块402,被配置为基于从查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,一组候选短语中的候选短语与关键短语具有至少一个相同的文字单元。装置400还包括目标相似度确定模块404,被配置为基于相同的文字单元的数目,确定关键短语与候选短语之间的目标相似度,目标相似度指示关键短语和候选短语之间的匹配程度。装置400还包括目标短语选择模块406,被配置为基于目标相似度从一组候选短语中选择目标短语。
在一些实施例中,其中一组候选短语获取模块402包括:查询文本获取模块,被配置为获取查询文本;分词处理模块,被配置为对查询文本进行分词处理以获得关键短语;以及查找模块,被配置为基于关键短语从结构化数据集合查找一组候选短语。
在一些实施例中,其中一组候选短语获取模块402包括目标短语查找模块,被配置为确定从结构化数据集合中是否找到与关键短语精确匹配的目标短语;以及获取模块,被配置为响应于未找到与关键短语精确匹配的目标短语,从结构化数据集合中获取一组候选短语。
在一些实施例中,其中目标相似度确定模块404包括共现相似度确定模块,被配置为基于相同文字单元的数目和候选短语中的文字单元的数目确定关键短语与候选短语之间的共现相似度;无序度相似度确定模块,被配置为基于相同文字单元的数目和相同文字单元中的每个文字单元在关键短语和候选短语中的相对位置顺序来确定关键短语与候选短语之间的无序度相似度;或者字符距离相似度确定模块,被配置为基于相同文字单元的数目和候选短语中的相同文字单元之间的距离来确定关键短语与候选短语之间的字符距离相似度;以及第一目标相似度获得模块,被配置为基于共现相似度、无序度相似度和字符距离相似度中的至少一项来获得目标相似度。
在一些实施例中,其中第一目标相似度获得模块包括权重获取模块,被配置为获取分别与共现相似度、无序度相似度和字符距离相似度相对应的权重;以及第二目标相似度获得模块,被配置为将权重应用于共现相似度、无序度相似度和字符距离相似度来获得目标相似度。
在一些实施例中,其中目标短语选择模块406包括基于阈值的目标短语选择模块,被配置为从一组候选短语中选择目标相似度超过阈值相似度的候选短语作为目标短语。
在一些实施例中,其中目标短语选择模块406包括排序模块,被配置为基于目标相似度对一组候选短语进行排序;以及目标短语获取模块,被配置为从经排序的一组候选短语中获取预定数目的候选短语作为目标短语。
在一些实施例中,装置400还包括查询结果获得模块,被配置为使用目标短语来获得针对查询文本的查询结果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。该示例电子设备500可用于实现图1中的计算设备106。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如方法200和300。例如,在一些实施例中,方法200和300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的方法200和300的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200和300。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种用于处理查询文本的方法,包括:
基于从所述查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,所述一组候选短语中的候选短语与所述关键短语具有至少一个相同的文字单元;
基于所述相同的文字单元的数目,确定所述关键短语与所述候选短语之间的目标相似度,所述目标相似度指示所述关键短语和所述候选短语之间的匹配程度;以及
基于所述目标相似度从所述一组候选短语中选择目标短语。
2.根据权利要求1所述的方法,其中获取所述一组候选短语包括:
获取查询文本;
对所述查询文本进行分词处理以获得所述关键短语;以及
基于所述关键短语从所述结构化数据集合查找所述一组候选短语。
3.根据权利要求1所述的方法,其中获取所述一组候选短语包括:
确定从所述结构化数据集合中是否找到与所述关键短语精确匹配的目标短语;以及
响应于未找到与所述关键短语精确匹配的目标短语,从所述结构化数据集合中获取所述一组候选短语。
4.根据权利要求1所述的方法,其中确定所述目标相似度包括:
基于所述相同文字单元的数目和所述候选短语中的文字单元的数目确定所述关键短语与所述候选短语之间的共现相似度;
基于所述相同文字单元的数目和所述相同文字单元中的每个文字单元在所述关键短语和所述候选短语中的相对位置顺序来确定所述关键短语与所述候选短语之间的无序度相似度;或者
基于所述相同文字单元的数目和所述候选短语中的所述相同文字单元之间的距离来确定所述关键短语与所述候选短语之间的字符距离相似度;以及
基于所述共现相似度、所述无序度相似度和所述字符距离相似度中的至少一项来获得所述目标相似度。
5.根据权利要求4所述的方法,其中基于所述共现相似度、无序相似度和所述字符距离相似度中的至少一项来获得所述目标相似度包括:
获取分别与所述共现相似度、所述无序度相似度和所述字符距离相似度相对应的权重;以及
将所述权重应用于所述共现相似度、所述无序度相似度和所述字符距离相似度来获得所述目标相似度。
6.根据权利要求1所述的方法,其中选择所述目标短语包括:
从所述一组候选短语中选择所述目标相似度超过阈值相似度的候选短语作为所述目标短语。
7.根据权利要求1所述的方法,其中选择所述目标短语包括:
基于所述目标相似度对所述一组候选短语进行排序;以及
从经排序的所述一组候选短语中获取预定数目的候选短语作为所述目标短语。
8.根据权利要求1所述的方法,还包括:
使用所述目标短语来获得针对所述查询文本的查询结果。
9.一种用于处理查询文本的装置,包括:
一组候选短语获取模块,被配置为基于从所述查询文本获得的关键短语,从结构化数据集合中获取一组候选短语,所述一组候选短语中的候选短语与所述关键短语具有至少一个相同的文字单元;
目标相似度确定模块,被配置为基于所述相同的文字单元的数目,确定所述关键短语与所述候选短语之间的目标相似度,所述目标相似度指示所述关键短语和所述候选短语之间的匹配程度;以及
目标短语选择模块,被配置为基于所述目标相似度从所述一组候选短语中选择目标短语。
10.根据权利要求9所述的装置,其中所述一组候选短语获取模块包括:
查询文本获取模块,被配置为获取查询文本;
分词处理模块,被配置为对所述查询文本进行分词处理以获得所述关键短语;以及
查找模块,被配置为基于所述关键短语从所述结构化数据集合查找所述一组候选短语。
11.根据权利要求9所述的装置,其中所述一组候选短语获取模块包括:
目标短语查找模块,被配置为确定从所述结构化数据集合中是否找到与所述关键短语精确匹配的目标短语;以及
获取模块,被配置为响应于未找到与所述关键短语精确匹配的目标短语,从所述结构化数据集合中获取所述一组候选短语。
12.根据权利要求9所述的装置,其中所述目标相似度确定模块包括:
共现相似度确定模块,被配置为基于所述相同文字单元的数目和所述候选短语中的文字单元的数目确定所述关键短语与所述候选短语之间的共现相似度;
无序度相似度确定模块,被配置为基于所述相同文字单元的数目和所述相同文字单元中的每个文字单元在所述关键短语和所述候选短语中的相对位置顺序来确定所述关键短语与所述候选短语之间的无序度相似度;或者
字符距离相似度确定模块,被配置为基于所述相同文字单元的数目和所述候选短语中的所述相同文字单元之间的距离来确定所述关键短语与所述候选短语之间的字符距离相似度;以及
第一目标相似度获得模块,被配置为基于所述共现相似度、所述无序度相似度和所述字符距离相似度中的至少一项来获得所述目标相似度。
13.根据权利要求12所述的装置,其中所述第一目标相似度获得模块包括:
权重获取模块,被配置为获取分别与所述共现相似度、所述无序度相似度和所述字符距离相似度相对应的权重;以及
第二目标相似度获得模块,被配置为将所述权重应用于所述共现相似度、所述无序度相似度和所述字符距离相似度来获得所述目标相似度。
14.根据权利要求9所述的装置,其中所述目标短语选择模块包括:
基于阈值的目标短语选择模块,被配置为从所述一组候选短语中选择所述目标相似度超过阈值相似度的候选短语作为所述目标短语。
15.根据权利要求9所述的装置,其中所述目标短语选择模块包括:
排序模块,被配置为基于所述目标相似度对所述一组候选短语进行排序;以及
目标短语获取模块,被配置为从经排序的所述一组候选短语中获取预定数目的候选短语作为所述目标短语。
16.根据权利要求9所述的装置,还包括:
查询结果获得模块,被配置为使用所述目标短语来获得针对所述查询文本的查询结果。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202011511011.8A 2020-12-18 2020-12-18 用于处理查询文本的方法、装置、设备、介质和程序 Active CN112507198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011511011.8A CN112507198B (zh) 2020-12-18 2020-12-18 用于处理查询文本的方法、装置、设备、介质和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011511011.8A CN112507198B (zh) 2020-12-18 2020-12-18 用于处理查询文本的方法、装置、设备、介质和程序

Publications (2)

Publication Number Publication Date
CN112507198A true CN112507198A (zh) 2021-03-16
CN112507198B CN112507198B (zh) 2022-09-23

Family

ID=74922644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011511011.8A Active CN112507198B (zh) 2020-12-18 2020-12-18 用于处理查询文本的方法、装置、设备、介质和程序

Country Status (1)

Country Link
CN (1) CN112507198B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416940A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 表格问答中的短语泛化方法、装置、电子设备及存储介质
WO2022257455A1 (zh) * 2021-06-09 2022-12-15 平安科技(深圳)有限公司 一种相似文本的确定方法、装置、终端设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
US20180374089A1 (en) * 2017-06-27 2018-12-27 Kasisto, Inc. Method and apparatus for determining expense category distance between transactions via transaction signatures
CN109145161A (zh) * 2018-07-12 2019-01-04 南京师范大学 中文地名查询方法、装置及设备
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110059312A (zh) * 2019-03-27 2019-07-26 阿里巴巴集团控股有限公司 短语挖掘方法、装置和电子设备
CN110543544A (zh) * 2019-09-04 2019-12-06 北京羽扇智信息科技有限公司 文本处理方法、存储介质和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
US20180374089A1 (en) * 2017-06-27 2018-12-27 Kasisto, Inc. Method and apparatus for determining expense category distance between transactions via transaction signatures
CN109145161A (zh) * 2018-07-12 2019-01-04 南京师范大学 中文地名查询方法、装置及设备
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN110059312A (zh) * 2019-03-27 2019-07-26 阿里巴巴集团控股有限公司 短语挖掘方法、装置和电子设备
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110543544A (zh) * 2019-09-04 2019-12-06 北京羽扇智信息科技有限公司 文本处理方法、存储介质和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. CHOPRA 等: "Learning a similarity metric discriminatively, with application to face verification", 《2005 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR"05)》 *
喻庚: "中文手写文档的快速关键词检索", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
李玉红等: "结合分词技术与语句相似度的主观题自动判分算法", 《计算机工程与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257455A1 (zh) * 2021-06-09 2022-12-15 平安科技(深圳)有限公司 一种相似文本的确定方法、装置、终端设备及存储介质
CN114416940A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 表格问答中的短语泛化方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112507198B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
US9626440B2 (en) Tenantization of search result ranking
US8019756B2 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
US20210295095A1 (en) Event extraction method, event extraction device, and electronic device
CN112507198B (zh) 用于处理查询文本的方法、装置、设备、介质和程序
CN107870915B (zh) 对搜索结果的指示
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN112528681A (zh) 跨语言检索及模型训练方法、装置、设备和存储介质
US11120064B2 (en) Transliteration of data records for improved data matching
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
CN109344408A (zh) 一种译文检测方法、装置及电子设备
CN103530345A (zh) 短文本特征扩展及拟合特征库构建方法、装置
CN114579580A (zh) 存储数据的方法、查询数据的方法和装置
CN113239149A (zh) 实体处理方法、装置、电子设备和存储介质
CN114186147A (zh) 数据处理方法、装置、电子设备和存储介质
CN113377924A (zh) 数据处理方法、装置、设备以及存储介质
CN115511014B (zh) 信息匹配方法、装置、设备及存储介质
CN115470198B (zh) 数据库的信息处理方法、装置、电子设备及存储介质
CN111259624B (zh) 知识图谱中三元组数据标注方法和装置
CN109977392B (zh) 一种文本特征分析的方法和装置
CN112818221A (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN114154072A (zh) 检索方法、装置、电子设备以及存储介质
CN116150497A (zh) 文本信息推荐方法、装置、电子设备及存储介质
CN115952403A (zh) 评估对象性能的方法、装置、电子设备及存储介质
CN118093805A (zh) 一种问答方法、装置、电子设备及存储介质
CN116595029A (zh) 一种sql语句自动生成方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant