CN110795541A - 文本查询方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本查询方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110795541A
CN110795541A CN201910785334.7A CN201910785334A CN110795541A CN 110795541 A CN110795541 A CN 110795541A CN 201910785334 A CN201910785334 A CN 201910785334A CN 110795541 A CN110795541 A CN 110795541A
Authority
CN
China
Prior art keywords
sentence
similar
statement
query
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910785334.7A
Other languages
English (en)
Other versions
CN110795541B (zh
Inventor
陈华栋
徐广庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910785334.7A priority Critical patent/CN110795541B/zh
Publication of CN110795541A publication Critical patent/CN110795541A/zh
Application granted granted Critical
Publication of CN110795541B publication Critical patent/CN110795541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及信息处理技术领域,公开了一种文本查询方法、装置、电子设备及计算机可读存储介质,文本查询方法包括:接收用户输入的初始查询语句,查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;语句库包括相似语句和相应的答案文本;相似语句基于样本查询语句通过翻译及反向翻译得到;若得到第一相似语句,则查询语句库中与第一相似语句相应的第一答案文本;若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本;训练后的复述模型基于样本查询语句和对应的相似语句训练得到,可以提高向用户推送的答案文本的准确率。

Description

文本查询方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及信息处理技术领域,具体而言,本申请涉及一种文本查询方法、装置、电子设备及计算机可读存储介质。
背景技术
自动问答系统,又称为人机对话系统,用户以自然语言形式描述问题,自动问答系统解答用户提出的问题,通常自动问答系统中可以预先存储有多个问答对,每一个问答对包括一个查询问题和相应的答案文本。
由于自然语言的特点,同样一个意思的查询问题,可以有很多种问法,当用户提出的问题和问答系统存储的查询问题之间具有一些不同的字符时,不同的字符会干扰问答系统对查询问题所对应的查询意图的识别,使得系统识别查询意图的准确率下降,进而降低向用户推送答案文本的正确率。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
第一方面,提供了一种文本查询方法,包括:
接收用户输入的初始查询语句,查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;其中,语句库包括相似语句和相应的答案文本;相似语句基于样本查询语句通过翻译及反向翻译得到;
若得到第一相似语句,则查询语句库中与第一相似语句相应的第一答案文本;
若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本;其中,训练后的复述模型基于样本查询语句和对应的相似语句训练得到。
在第一方面的可选实施例中,接收用户输入的初始查询语句的步骤之前,还包括:
获取样本查询语句,将样本查询语句进行翻译并反向翻译,基于得到的反向翻译语句获取与样本查询语句相应的相似语句;
获取与样本查询语句相应的答案文本,根据相似语句及答案文本之间的对应关系构建语句库。
在第一方面的可选实施例中,将样本查询语句进行翻译并反向翻译的步骤,包括:
将样本查询语句输入至少两种不同的翻译引擎中进行翻译,得到相应的翻译语句;
将翻译语句依据预定的输入方式输入至少两种不同的翻译引擎中进行反向翻译,得到与样本查询语句的语言种类相同的反向翻译语句。
在第一方面的可选实施例中,基于得到的反向翻译语句获取与样本查询语句相应的相似语句的步骤,包括:
从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句。
在第一方面的可选实施例中,从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句的步骤,包括:
获取各反向翻译语句与样本查询语句之间的相似度;
选取相似度大于预设相似度值的反向翻译语句设为相似语句。
在第一方面的可选实施例中,从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句的步骤,包括:
获取各反向翻译语句与样本查询语句之间的相似度;
选取相似度最大的预设数量的反向翻译语句设为相似语句。
在第一方面的可选实施例中,将初始查询语句输入预设的训练后的复述模型的步骤之前,还包括:
基于样本查询语句和相似语句对预设的复述模型进行训练以更新其相应参数,得到训练后的复述模型。
在第一方面的可选实施例中,依据第二相似语句得到相应的第二答案文本,包括:
将第二相似语句输入预设的训练后的查询模型,得到与第二相似语句相应的第二答案文本;其中,预设的训练后的查询模型基于相似语句和相应的答案文本训练得到。
在第一方面的可选实施例中,文本查询方法还包括:
将第二相似语句和相应的第二答案文本添加到语句库中以更新语句库。
第二方面,提供了一种文本查询装置,包括:
第一查询模块,用于接收用户输入的初始查询语句,查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;其中,语句库包括相似语句和相应的答案文本;相似语句基于样本查询语句通过翻译及反向翻译得到;
第二查询模块,用于得到第一相似语句时,查询语句库中与第一相似语句相应的第一答案文本;
输入模块,用于未得到第一相似语句时,将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本;其中,训练后的复述模型基于样本查询语句和对应的相似语句训练得到。
在第二方面的可选实施例中,文本查询装置还包括:
翻译模块,用于获取样本查询语句,将样本查询语句进行翻译并反向翻译,基于得到的反向翻译语句获取与样本查询语句相应的相似语句;
构建模块,用于获取与样本查询语句相应的答案文本,根据相似语句及答案文本之间的对应关系构建语句库。
在第二方面的可选实施例中,翻译模块在将样本查询语句进行翻译并反向翻译时,具体用于:
将样本查询语句输入至少两种不同的翻译引擎中进行翻译,得到相应的翻译语句;
将翻译语句依据预定的输入方式输入至少两种不同的翻译引擎中进行反向翻译,得到与样本查询语句的语言种类相同的反向翻译语句。
在第二方面的可选实施例中,翻译模块在基于得到的反向翻译语句获取与样本查询语句相应的相似语句时,具体用于:
从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句。
在第二方面的可选实施例中,翻译模块在从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句时,具体用于:
获取各反向翻译语句与样本查询语句之间的相似度;
选取相似度大于预设相似度值的反向翻译语句设为相似语句。
在第二方面的可选实施例中,翻译模块在从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句时,具体用于:
获取各反向翻译语句与样本查询语句之间的相似度;
选取相似度最大的预设数量的反向翻译语句设为相似语句。
在第二方面的可选实施例中,文本查询装置还包括:
训练模块,用于基于样本查询语句和相似语句对预设的复述模型进行训练以更新其相应参数,得到训练后的复述模型。
在第二方面的可选实施例中,输入模块在依据第二相似语句得到相应的第二答案文本时,具体用于:
将第二相似语句输入预设的训练后的查询模型,得到与第二相似语句相应的第二答案文本;其中,预设的训练后的查询模型基于相似语句和相应的答案文本训练得到。
在第二方面的可选实施例中,文本查询装置还包括:
更新模块,用于将第二相似语句和相应的第二答案文本添加到语句库中以更新语句库。
第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本申请第一方面所示的文本查询方法。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的文本查询方法。
本申请提供的技术方案带来的有益效果是:通过将样本查询语句通过翻译及反向翻译得到相似语句,基于相似语句和相应的答案文本构建语句库,并基于样本查询语句和相似语句得到训练后的复述模型;根据相似语句可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率;此外,接收到用户输入的初始查询语句时,先查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;若得到第一相似语句,则直接从语句库中查询与第一相似语句相应的第一答案文本,可以在保证第一答案文本的正确率的同时,简化查询流程,提高查询速度;若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本,在语句库中没有存储相应的第一相似语句时,可以采用复述模型提高识别用户的初始查询语句的语义的准确率,从而提高向用户推送的答案文本的准确率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种文本查询方法的应用环境图;
图2为本申请实施例提供的一种文本查询方法的流程示意图;
图3为本申请实施例提供的相似语句展示界面示意图;
图4为本申请实施例提供的一种文本查询方法的流程示意图;
图5为本申请实施例提供的翻译并反向翻译流程示意图;
图6为本申请实施例提供的翻译并反向翻译流程示意图;
图7为本申请实施例提供的示例中的文本查询方法的流程示意图;
图8为本申请实施例提供的一种文本查询装置的结构示意图;
图9为本申请实施例提供的一种文本查询的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的文本查询方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请提供的文本查询方法,可以应用于如图1所示的应用环境中。具体的,服务器10和终端20通过互联网进行通信,服务器10中设置有语料库101和训练后的复述模型102,其中,语句库101包括相似语句和相应的答案文本;相似语句基于样本查询语句通过翻译及反向翻译得到,训练后的复述模型基于样本查询语句和对应的相似语句训练得到;服务器10接收用户通过终端20以语音或文本形式输入的初始查询语句,服务器10查询预设的语料库101中与初始查询语句之间匹配度高于预设阈值的第一相似语句;若得到第一相似语句,则服务器10查询语句库101中与第一相似语句相应的第一答案文本,将查询到的第一答案文本发送给终端20;若在语句库101中未查询得到第一相似语句,则服务器10将初始查询语句输入预设的训练后的复述模型102,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本,并将查询到的第二答案文本发送到终端20。
本技术领域技术人员可以理解,这里所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、MID(Mobile Internet Device,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请实施例中提供了一种可能的实现方式,如图2所示,提供了一种文本查询方法,以该方法应用于图1中的服务器为例进行说明,可以包括以下步骤:
步骤S202,接收用户输入的初始查询语句,查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;其中,语句库包括相似语句和相应的答案文本;相似语句基于样本查询语句通过翻译及反向翻译得到。
本步骤中,初始查询语句是用户当前提出的问题;样本查询语句可以包括用户可能提出的所有问题;相似语句代表与样本查询语句的语义相同但具有不同字符的语句,语句库中可以预先存储有多组相似语句,每一组相似语句包括多个语义相同的相似语句,每一组相似语句设置有相应的一个答案文本,即语句库中存储有用户所有可能提出的问题的不同问法和相应的答案文本。
例如,语句库中可以预先存储有如下相似语句:“清华在哪里?”“清华在哪儿?”“哪里是清华?”,以及存储有与上述多个相似语句相应的答案文本,当用户输入的初始查询语句是“清华在哪”时,可以查询到与初始查询语句之间匹配度高于预设阈值的“清华在哪里?”或是“清华在哪儿?”,从而获取与相似语句相应的答案文本。
具体的,匹配度可以代表文本相似度,可以采用多种方式计算文本相似度作为匹配度,例如,采用余弦相似度计算两个文本向量之间的夹角,或者是采用聚类模型计算初始查询语句和相似语句之间的相似度设为匹配度,匹配度的具体计算方式在此不做限制。
在具体实施过程中,可以预先收集所有用户可能提出的问题设为样本查询语句,然后将样本查询语句输入到翻译引擎中进行翻译得到其他语种的翻译语句,再将得到的翻译语句输入翻译引擎中进行反向翻译,然后根据得到的反向翻译语句获取与样本查询语句的语言种类相同的相似语句,进行翻译和反向翻译的过程只改变了样本查询语句的语言种类,并未改变样本查询语句的语义,即样本查询语句和得到的相似语句之间的语义相同。
对于翻译和反向翻译的过程,可以将样本查询语句输入多种不同种类的翻译引擎进行翻译并反向翻译;翻译的语言可以是指定的一种语言,也可以是多种语言;翻译和反向翻译所采用的翻译引擎可以是同一个,也可以是不同的翻译引擎。
步骤S204,若得到第一相似语句,则查询语句库中与第一相似语句相应的第一答案文本。
本步骤中,若语句库中查询到与初始查询语句之间匹配度高于预设阈值的第一相似语句,则直接从语句库中查询与第一相似语句相应的第一答案文本,可以在保证准确识别初始查询语句的语义的同时,简化答案文本的查询流程,提高查询效率。
步骤S206,若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本;其中,训练后的复述模型基于样本查询语句和对应的相似语句训练得到。
其中,复述模型可以是transformer模型(转换模型),transformer模型是由编码组件、解码组件和组件之间的连接组成的、基于self-attention机制(自注意力机制)实现快速并行的自然语言处理模型。
参考图3所示,图3展示了复述模型界面示意图,图3中上面的方框中的语句是输入的初始查询语句,图3中下面的方框中的语句是根据初始查询语句输出的多个相似语句,多个相似语句均保留有初始查询语句的语义,但与初始查询语句的字符有不同的地方。
在具体实施过程中,根据样本查询语句和对应的相似语句对预设的复述模型进行训练,即将用户可能提出的样本查询语句作为输入,使得复述模型输出与样本查询语句的语义相同但可能具有不同字符的语句。
当语句库中未查询到与用户当前输入的初始查询语句之间匹配度高于预设阈值的第一相似语句时,将初始查询语句输入预设的训练后的复述模型,可以得到与初始查询语句对应的第二相似语句,第二相似语句保留有初始查询语句的语义,再获取与第二相似语句对应的第二答案文本。
本实施例提供的文本查询方法,通过将样本查询语句通过翻译及反向翻译得到相似语句,基于相似语句和相应的答案文本构建语句库,并基于样本查询语句和相似语句得到训练后的复述模型;根据相似语句可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率;此外,接收到用户输入的初始查询语句时,先查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;若得到第一相似语句,则直接从语句库中查询与第一相似语句相应的第一答案文本,可以在保证第一答案文本的正确率的同时,简化查询流程,提高查询速度;若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本,在语句库中没有存储相应的第一相似语句时,可以采用复述模型提高识别用户的初始查询语句的语义的准确率,从而提高向用户推送的答案文本的准确率。
本申请实施例中提供了一种可能的实现方式,如图4所示,步骤S202的接收用户输入的初始查询语句之前,还可以包括:
步骤S200,获取样本查询语句,将样本查询语句进行翻译并反向翻译,基于得到的反向翻译语句获取与样本查询语句相应的相似语句。
本步骤中,对于翻译过程,可以将样本查询语句输入多种不同种类的翻译引擎进行翻译成同一指定的语言种类,得到多种不同的翻译语句;也可以将样本查询语句输入同一翻译引擎进行多种语言翻译,得到多种不同语种的翻译语句;还可以将样本查询语句输入多种不同种类的翻译引擎进行多种语言的翻译,以获取多种不同语言形式的相似语句,从而获取所有用户可能提问的问法。
对于反向翻译的过程也可以有多种,可以将翻译语句输入相应的翻译引擎进行反向翻译,也可以随机输入多个不同的翻译引擎进行翻译,还可以输入除原翻译过程采用的翻译引擎以外的其他翻译引擎进行翻译,对于翻译和反翻译得到相似语句的具体过程将在下文进行详细阐述。
步骤S201,获取与样本查询语句相应的答案文本,根据相似语句及答案文本之间的对应关系构建语句库。
在具体实施过程中,语句库中可以预先存储有多组相似语句,每一组相似语句包括语义相同、但具有不同字符的至少一个相似语句,每一组相似语句设置有相应的一个答案文本,即语句库中存储有用户所有可能提出的问题的不同问法和相应的答案文本,并且建立有每组相似语句和相应的答案文本之间的映射关系。
以下将结合实施例具体阐述将样本查询语句进行翻译并反向翻译的过程。
本申请实施例中提供了一种可能的实现方式,步骤S200中的将样本查询语句进行翻译并反向翻译,包括:
(1)将样本查询语句输入至少两种不同的翻译引擎中进行翻译,得到相应的翻译语句。
在本步骤中,可以将样本查询语句输入至少两种不同的翻译引擎中,翻译为一种指定的语言种类,如翻译为英语,也可以翻译为多种指定的语言种类,如翻译为英语、日语、韩语等等。
(2)将翻译语句依据预定的输入方式输入至少两种不同的翻译引擎中进行反向翻译,得到与样本查询语句的语言种类相同的反向翻译语句。
在具体实施过程中,可以将翻译语句输入相应的翻译引擎进行反向翻译,可以随机输入多个不同的翻译引擎进行翻译,还可以输入除原翻译过程采用的翻译引擎以外的其他翻译引擎进行翻译。
以图5所示为例,翻译和反向翻译的过程对应的翻译引擎不变,将样本查询语句“清华在哪”分别输入翻译引擎A和翻译引擎B中,指定翻译引擎A和翻译引擎B进行中译英,得到和翻译引擎A对应的翻译语句“Where is Tsinghua?”,以及和翻译引擎B对应的翻译语句“Where is the tsinghua”,然后将和翻译引擎A对应的翻译语句再次输入翻译引擎A,将和翻译引擎B对应的翻译语句再次输入翻译引擎B,指定翻译引擎A和翻译引擎B进行英译中,得到与翻译引擎A对应的“清华在哪里?”和与翻译引擎B对应的“清华在哪儿?”。
以如6所示为例,翻译和反向翻译的过程对应的翻译引擎可以变更,将样本查询语句“清华在哪”分别输入翻译引擎A和翻译引擎B中,指定翻译引擎A和翻译引擎B进行中译英,得到和翻译引擎A对应的翻译语句“Where is Tsinghua?”,以及和翻译引擎B对应的翻译语句“Where is the tsinghua”,然后将和翻译引擎A对应的翻译语句输入翻译引擎B,将和翻译引擎B对应的翻译语句再次输入翻译引擎A,指定翻译引擎A和翻译引擎B进行英译中,得到与“清华在哪里?”和“清华在哪儿?”,在具体实施过程中,可以指定翻译和反向翻译的过程不能为同一个翻译引擎,也可以随机输入到各不同的翻译引擎进行反向翻译。
上述实施例阐述了对样本查询语句进行翻译并反向翻译的具体过程,采用多个翻译引擎对样本查询语句进行翻译并反向翻译,可以得到多个相似语句,以获取具有与样本查询语句的相同语义但以不同字符形式呈现相似语句,从而提高识别用户当前输入的初始查询语句的准确率。
下面将结合具体实施例详细阐述如何从反向翻译语句中获取相似语句的过程。
本申请实施例中提供了一种可能的实现方式,步骤S200中的基于得到的反向翻译语句获取与样本查询语句相应的相似语句,包括:从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句。
具体的,预设条件可以是相似度大于预设阈值,也可以获取各反向翻译语句和样本查询语句之间的相似度,对相似度进行排序,获取相似度最大的预设数量的反向翻译语句。
在具体实施过程中,从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句的步骤,可以包括:
(1)获取各反向翻译语句与样本查询语句之间的相似度;
(2)选取相似度大于预设相似度值的反向翻译语句设为相似语句。
在具体实施过程中,从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句的步骤,还可以包括:
(1)获取各反向翻译语句与样本查询语句之间的相似度;
(2)选取相似度最大的预设数量的反向翻译语句设为相似语句。
具体的,可以采用余弦相似度的计算方式计算反向翻译语句的向量和样本查询语句的向量之间的夹角;也可以采用聚类模型算法计算反向翻译语句与样本查询语句之间的相似度,对于相似度的具体计算方式,在此不做限制。
上述实施例中,采用不同方式从反向翻译语句中提取与样本查询语句对应的相似语句,可以获取多个具有不同字符形式的相似语句,同时还可以确保获得的各相似语句保留有样本查询语句的语义。
本申请实施例中提供了一种可能的实现方式,步骤S206的将初始查询语句输入预设的训练后的复述模型的步骤之前,还包括:基于样本查询语句和相似语句对预设的复述模型进行训练以更新其相应参数,得到训练后的复述模型。
本步骤中,根据样本查询语句和对应的相似语句对预设的复述模型进行训练,即将用户可能提出的样本查询语句作为输入,使得复述模型输出与样本查询语句的问题语义相同但可能具有不同字符的语句,也就是复述模型,但对于样本查询语句更换其他问法。
在具体实施过程中,还可以将训练后的复述模型输出的第二相似语句添加到样本查询语句中,更新复述模型的训练语料,对训练后的复述模型进行再次训练。
本申请实施例中提供了一种可能的实现方式,文本查询方法还可以包括:将第二相似语句和相应的第二答案文本添加到语句库中以更新语句库。
具体的,若语句库中未查询到与初始查询语句之间匹配度高于预设阈值的第一相似语句,可以将通过复述模型得到的与初始查询语句对应的第二相似语句更新到语句库中,并将依据第二相似语句得到的第二答案文本也更新到语句库中,对语句库进行进一步完善,从而在确保获取正确的答案文本时,提高对答案文本的查询效率。
本申请实施例中提供了一种可能的实现方式,步骤S206中的依据第二相似语句得到相应的第二答案文本的步骤,可以包括:
将第二相似语句输入预设的训练后的查询模型,得到与第二相似语句相应的第二答案文本;其中,预设的训练后的查询模型基于相似语句和相应的答案文本训练得到。
在具体实施过程中,可以将语句库中的相似语句和相应的答案文本作为训练语料,以相似语句为输入,以相应的答案文本为输出,对预设的查询模型进行训练以更新其相应参数,得到训练后的查询模型。
上述的文本查询方法,通过将样本查询语句通过翻译及反向翻译得到相似语句,基于相似语句和相应的答案文本构建语句库,并基于样本查询语句和相似语句得到训练后的复述模型;根据相似语句可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率。
此外,接收到用户输入的初始查询语句时,先查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;若得到第一相似语句,则直接从语句库中查询与第一相似语句相应的第一答案文本,可以在保证第一答案文本的正确率的同时,简化查询流程,提高查询速度;若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本,在语句库中没有存储相应的第一相似语句时,可以采用复述模型提高识别用户的初始查询语句的语义的准确率,从而提高向用户推送的答案文本的准确率。
进一步的,采用不同方式从反向翻译语句中提取和样本查询语句对应的相似语句,可以获取多个具有不同字符形式的相似语句,同时还可以确保获得的各相似语句保留有样本查询语句的语义。
进一步的,将第二相似语句更新到语句库中,并将依据第二相似语句得到的第二答案文本也更新到语句库中,对语句库进行进一步完善,从而在确保获取正确的答案文本时,提高对答案文本的查询效率。
为了更好地理解上述文本查询方法,如图7所示,以下详细阐述一个本发明的文本查询方法的示例:
在一个示例中,本申请提供的文本查询方法,包括如下步骤:
S700,获取样本查询语句,将样本查询语句进行翻译并反向翻译;
S701,基于得到的反向翻译语句获取与样本查询语句相应的相似语句;
S702,获取与样本查询语句相应的答案文本,根据相似语句及答案文本之间的对应关系构建语句库;
S703,基于样本查询语句和相似语句对预设的复述模型进行训练以更新其相应参数,得到训练后的复述模型;
S704,基于相似语句和相应的答案文本对预设的查询模型进行训练以更新其相应参数,得到训练后的查询模型;
S705,接收用户输入的初始查询语句;
S706,查询预设的语句库中是否存在与初始查询语句之间匹配度高于预设阈值的第一相似语句;若是,执行步骤S707,若否,执行步骤S708;
S707,查询语句库中与第一相似语句相应的第一答案文本;
S708,将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句;
S709,将第二相似语句输入训练后的查询模型,得到与第二相似语句相应的第二答案文本;
S710,将第二相似语句和相应的第二答案文本添加到语句库中以更新语句库。
上述示例中,通过将样本查询语句通过翻译及反向翻译得到相似语句,基于相似语句和相应的答案文本构建语句库,并基于样本查询语句和相似语句得到训练后的复述模型;根据相似语句可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率;接收到用户输入的初始查询语句时,先查询预设的语句库中是否存在初始查询语句之间匹配度高于预设阈值的第一相似语句;若是,则直接从语句库中查询与第一相似语句相应的第一答案文本,可以在保证第一答案文本的正确率的同时,简化查询流程,提高查询速度;若否,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本,在语句库中没有存储相应的第一相似语句时,可以采用复述模型提高识别用户的初始查询语句的语义的准确率,从而提高向用户推送的答案文本的准确率。
本申请实施例中提供了一种可能的实现方式,如图8所示,提供了一种文本查询装置80,该文本查询装置80可以包括:第一查询模块802、第二查询模块804和输入模块806,其中,
第一查询模块802,用于接收用户输入的初始查询语句,查询预设的语句库中与所述初始查询语句之间匹配度高于预设阈值的第一相似语句;其中,所述语句库包括相似语句和相应的答案文本;所述相似语句基于样本查询语句通过翻译及反向翻译得到;
第二查询模块804,用于得到所述第一相似语句时,查询所述语句库中与所述第一相似语句相应的第一答案文本;
输入模块806,用于未得到所述第一相似语句时,将所述初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据所述第二相似语句得到相应的第二答案文本;其中,所述训练后的复述模型基于所述样本查询语句和对应的所述相似语句训练得到。
上述的文本查询装置,通过将样本查询语句通过翻译及反向翻译得到相似语句,基于相似语句和相应的答案文本构建语句库,并基于样本查询语句和相似语句得到训练后的复述模型;根据相似语句可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率;此外,接收到用户输入的初始查询语句时,先查询预设的语句库中与初始查询语句之间匹配度高于预设阈值的第一相似语句;若得到第一相似语句,则直接从语句库中查询与第一相似语句相应的第一答案文本,可以在保证第一答案文本的正确率的同时,简化查询流程,提高查询速度;若未得到第一相似语句,则将初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据第二相似语句得到相应的第二答案文本,在语句库中没有存储相应的第一相似语句时,可以采用复述模型提高识别用户的初始查询语句的语义的准确率,从而提高向用户推送的答案文本的准确率。
本申请实施例中提供了一种可能的实现方式,文本查询装置80还包括:
翻译模块,用于获取样本查询语句,将样本查询语句进行翻译并反向翻译,基于得到的反向翻译语句获取与样本查询语句相应的相似语句;
构建模块,用于获取与样本查询语句相应的答案文本,根据相似语句及答案文本之间的对应关系构建语句库。
本申请实施例中提供了一种可能的实现方式,翻译模块在将样本查询语句进行翻译并反向翻译时,具体用于:
将样本查询语句输入至少两种不同的翻译引擎中进行翻译,得到相应的翻译语句;
将翻译语句依据预定的输入方式输入至少两种不同的翻译引擎中进行反向翻译,得到与样本查询语句的语言种类相同的反向翻译语句。
本申请实施例中提供了一种可能的实现方式,翻译模块在基于得到的反向翻译语句获取与样本查询语句相应的相似语句时,具体用于:
从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句。
本申请实施例中提供了一种可能的实现方式,翻译模块在从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句时,具体用于:
获取各反向翻译语句与样本查询语句之间的相似度;
选取相似度大于预设相似度值的反向翻译语句设为相似语句。
本申请实施例中提供了一种可能的实现方式,翻译模块在从反向翻译语句中提取与样本查询语句相似度符合预设条件的语句设为相似语句时,具体用于:
获取各反向翻译语句与样本查询语句之间的相似度;
选取相似度最大的预设数量的反向翻译语句设为相似语句。
本申请实施例中提供了一种可能的实现方式,文本查询装置80还包括:
训练模块,用于基于样本查询语句和相似语句对预设的复述模型进行训练以更新其相应参数,得到训练后的复述模型。
本申请实施例中提供了一种可能的实现方式,输入模块806在依据第二相似语句得到相应的第二答案文本时,具体用于:
将第二相似语句输入预设的训练后的查询模型,得到与第二相似语句相应的第二答案文本;其中,预设的训练后的查询模型基于相似语句和相应的答案文本训练得到。
本申请实施例中提供了一种可能的实现方式,文本查询装置80还包括:
更新模块,用于将第二相似语句和相应的第二答案文本添加到语句库中以更新语句库。
本公开实施例的图片的文本查询装置可执行本公开的实施例所提供的一种图片的文本查询方法,其实现原理相类似,本公开各实施例中的图片的文本查询装置中的各模块所执行的动作是与本公开各实施例中的图片的文本查询方法中的步骤相对应的,对于图片的文本查询装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的文本查询方法中的描述,此处不再赘述。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的文本查询方法。与现有技术相比,本申请中的文本查询方法可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率。
在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请中的文本查询方法可以更准确地识别用户对于具有相同语义的查询问题的不同问法,从而提高向用户推送的答案文本的准确率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种文本查询方法,其特征在于,包括:
接收用户输入的初始查询语句,查询预设的语句库中与所述初始查询语句之间匹配度高于预设阈值的第一相似语句;其中,所述语句库包括相似语句和相应的答案文本;所述相似语句基于样本查询语句通过翻译及反向翻译得到;
若得到所述第一相似语句,则查询所述语句库中与所述第一相似语句相应的第一答案文本;
若未得到所述第一相似语句,则将所述初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据所述第二相似语句得到相应的第二答案文本;其中,所述训练后的复述模型基于所述样本查询语句和对应的所述相似语句训练得到。
2.根据权利要求1所述的文本查询方法,其特征在于,所述接收用户输入的初始查询语句的步骤之前,还包括:
获取所述样本查询语句,将所述样本查询语句进行翻译并反向翻译,基于得到的反向翻译语句获取与所述样本查询语句相应的相似语句;
获取与所述样本查询语句相应的答案文本,根据所述相似语句及所述答案文本之间的对应关系构建所述语句库。
3.根据权利要求2所述的文本查询方法,其特征在于,所述将所述样本查询语句进行翻译并反向翻译的步骤,包括:
将所述样本查询语句输入至少两种不同的翻译引擎中进行翻译,得到相应的翻译语句;
将所述翻译语句依据预定的输入方式输入至少两种不同的翻译引擎中进行反向翻译,得到与所述样本查询语句的语言种类相同的反向翻译语句。
4.根据权利要求2所述的文本查询方法,其特征在于,所述基于得到的反向翻译语句获取与所述样本查询语句相应的相似语句的步骤,包括:
从所述反向翻译语句中提取与所述样本查询语句相似度符合预设条件的语句设为所述相似语句。
5.根据权利要求4所述的文本查询方法,其特征在于,所述从所述反向翻译语句中提取与所述样本查询语句相似度符合预设条件的语句设为所述相似语句的步骤,包括:
获取各所述反向翻译语句与所述样本查询语句之间的相似度;
选取相似度大于预设相似度值的反向翻译语句设为所述相似语句。
6.根据权利要求4所述的文本查询方法,其特征在于,所述从所述反向翻译语句中提取与所述样本查询语句相似度符合预设条件的语句设为所述相似语句的步骤,包括:
获取各所述反向翻译语句与所述样本查询语句之间的相似度;
选取相似度最大的预设数量的反向翻译语句设为所述相似语句。
7.根据权利要求1所述的文本查询方法,其特征在于,所述将所述初始查询语句输入预设的训练后的复述模型的步骤之前,还包括:
基于所述样本查询语句和所述相似语句对预设的复述模型进行训练以更新其相应参数,得到所述训练后的复述模型。
8.根据权利要求1所述的文本查询方法,其特征在于,所述依据所述第二相似语句得到相应的第二答案文本的步骤,包括:
将所述第二相似语句输入预设的训练后的查询模型,得到与所述第二相似语句相应的第二答案文本;其中,所述预设的训练后的查询模型基于所述相似语句和相应的答案文本训练得到。
9.根据权利要求1所述的文本查询方法,其特征在于,所述方法还包括:
将所述第二相似语句和相应的第二答案文本添加到所述语句库中以更新所述语句库。
10.一种文本查询装置,其特征在于,包括:
第一查询模块,用于接收用户输入的初始查询语句,查询预设的语句库中与所述初始查询语句之间匹配度高于预设阈值的第一相似语句;其中,所述语句库包括相似语句和相应的答案文本;所述相似语句基于样本查询语句通过翻译及反向翻译得到;
第二查询模块,用于得到所述第一相似语句时,查询所述语句库中与所述第一相似语句相应的第一答案文本;
输入模块,用于未得到所述第一相似语句时,将所述初始查询语句输入预设的训练后的复述模型,得到相应的第二相似语句,并依据所述第二相似语句得到相应的第二答案文本;其中,所述训练后的复述模型基于所述样本查询语句和对应的所述相似语句训练得到。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任一项所述的文本查询方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-9任一项所述的文本查询方法。
CN201910785334.7A 2019-08-23 2019-08-23 文本查询方法、装置、电子设备及计算机可读存储介质 Active CN110795541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910785334.7A CN110795541B (zh) 2019-08-23 2019-08-23 文本查询方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910785334.7A CN110795541B (zh) 2019-08-23 2019-08-23 文本查询方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110795541A true CN110795541A (zh) 2020-02-14
CN110795541B CN110795541B (zh) 2023-05-26

Family

ID=69427044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910785334.7A Active CN110795541B (zh) 2019-08-23 2019-08-23 文本查询方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110795541B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428522A (zh) * 2020-03-23 2020-07-17 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN112182175A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN112287217A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN113449512A (zh) * 2020-03-25 2021-09-28 中国电信股份有限公司 信息处理方法、装置和计算机可读存储介质
CN114297353A (zh) * 2021-11-29 2022-04-08 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103382A1 (en) * 2011-10-19 2013-04-25 Electronics And Telecommunications Research Institute Method and apparatus for searching similar sentences
US20170193091A1 (en) * 2016-01-05 2017-07-06 International Business Machines Corporation Readability awareness in natural language processing systems
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法
CN108846063A (zh) * 2018-06-04 2018-11-20 北京百度网讯科技有限公司 确定问题答案的方法、装置、设备和计算机可读介质
CN110096580A (zh) * 2019-04-24 2019-08-06 北京百度网讯科技有限公司 一种faq对话方法、装置及电子设备
CN110096513A (zh) * 2019-04-10 2019-08-06 阿里巴巴集团控股有限公司 一种数据查询、资金核对方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103382A1 (en) * 2011-10-19 2013-04-25 Electronics And Telecommunications Research Institute Method and apparatus for searching similar sentences
US20170193091A1 (en) * 2016-01-05 2017-07-06 International Business Machines Corporation Readability awareness in natural language processing systems
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法
CN108846063A (zh) * 2018-06-04 2018-11-20 北京百度网讯科技有限公司 确定问题答案的方法、装置、设备和计算机可读介质
CN110096513A (zh) * 2019-04-10 2019-08-06 阿里巴巴集团控股有限公司 一种数据查询、资金核对方法及装置
CN110096580A (zh) * 2019-04-24 2019-08-06 北京百度网讯科技有限公司 一种faq对话方法、装置及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428522A (zh) * 2020-03-23 2020-07-17 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN111428522B (zh) * 2020-03-23 2023-06-30 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN113449512A (zh) * 2020-03-25 2021-09-28 中国电信股份有限公司 信息处理方法、装置和计算机可读存储介质
CN112182175A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN112287217A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
WO2021179688A1 (zh) * 2020-10-23 2021-09-16 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN112287217B (zh) * 2020-10-23 2023-08-04 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN114297353A (zh) * 2021-11-29 2022-04-08 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN114297353B (zh) * 2021-11-29 2024-04-26 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN110795541B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110795541B (zh) 文本查询方法、装置、电子设备及计算机可读存储介质
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
CN111898643B (zh) 一种语义匹配方法及装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
US10083398B2 (en) Framework for annotated-text search using indexed parallel fields
CN109858045B (zh) 机器翻译方法和装置
US10108661B2 (en) Using synthetic events to identify complex relation lookups
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN112668339A (zh) 语料样本确定方法、装置、电子设备及存储介质
CN111027316A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
US10229156B2 (en) Using priority scores for iterative precision reduction in structured lookups for questions
CN111444321A (zh) 问答方法、装置、电子设备和存储介质
CN112329454A (zh) 语种识别方法、装置、电子设备及可读存储介质
CN117236340A (zh) 问答方法、装置、设备和介质
US9720910B2 (en) Using business process model to create machine translation dictionaries
CN108874786B (zh) 机器翻译方法及装置
CN114970470B (zh) 文案信息处理方法、装置、电子设备和计算机可读介质
CN115203378A (zh) 基于预训练语言模型的检索增强方法、系统及存储介质
CN110175331B (zh) 专业术语的识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021918

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant