CN111597800B - 同义句的获取方法及装置、设备及存储介质 - Google Patents

同义句的获取方法及装置、设备及存储介质 Download PDF

Info

Publication number
CN111597800B
CN111597800B CN201910122455.3A CN201910122455A CN111597800B CN 111597800 B CN111597800 B CN 111597800B CN 201910122455 A CN201910122455 A CN 201910122455A CN 111597800 B CN111597800 B CN 111597800B
Authority
CN
China
Prior art keywords
translation model
training
user
training sample
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910122455.3A
Other languages
English (en)
Other versions
CN111597800A (zh
Inventor
刘剑
甘露
卜建辉
吴伟佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910122455.3A priority Critical patent/CN111597800B/zh
Publication of CN111597800A publication Critical patent/CN111597800A/zh
Application granted granted Critical
Publication of CN111597800B publication Critical patent/CN111597800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种同义句的获取方法及装置、设备及存储介质。所述方法包括:获取待处理语句;将待处理语句输入翻译模型,得到待处理语句的同义句,其中,翻译模型由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练而获得。本发明实施例的技术方案解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。

Description

同义句的获取方法及装置、设备及存储介质
技术领域
本发明实施例涉及自然语言处理技术,尤其涉及一种同义句的获取方法及装置、设备及存储介质。
背景技术
自然语言处理是研究人与计算机交互的语言问题的一门学科,处理自然语言的关键是要让计算机“理解”自然语言。问答系统应用了自然语言处理技术,其是信息检索技术的一种高级形式,它能用准确、简洁的自然语言回答用户的自然语言问题。
问答系统在接收到用户输入的问题之后,一般会先获取该问题的同义句,然后再根据该问题及其同义句,到数据库中搜索匹配的答案。现有技术中,同义句一般是通过同义词替换以及语言模型获取的。首先,需要通过人工挖掘大量的同义词对,然后根据同义词对,将问题中的一个或多个词语替换为对应的同义词,再使用语言模型获取同义词替换后的各语句的置信度,最后根据置信度确定问题的同义句。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:同义句的确定过程较为繁琐,且浪费了大量的人力。
发明内容
有鉴于此,本发明实施例提供了一种同义句的获取方法及装置、设备及存储介质,以实现在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。
第一方面,本发明实施例提供了一种同义句的获取方法,包括:
获取待处理语句;
将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。
第二方面,本发明实施例提供了一种同义句的获取装置,包括:
语句获取模块,用于获取待处理语句;
同义句获取模块,用于将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。
第三方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的同义句的获取方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的同义句的获取方法。
本发明实施例提供了一种同义句的获取方法及装置、设备及存储介质,通过使用由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练翻译模型进行训练,并使用训练得到的翻译模型获取语句的同义句,解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。
附图说明
图1是本发明实施例一提供的一种同义句的获取方法的流程图;
图2是本发明实施例二提供的一种同义句的获取装置的结构图;
图3是本发明实施例三提供的一种设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种同义句的获取方法的流程图,该方法可以由同义句的获取装置来执行,该装置可以通过软件和/或硬件实现,该装置可集成在服务器等设备中。如图1所示,该方法具体包括如下步骤:
S110、获取待处理语句。
在本实施例中,待处理语句的获取方式具体可以是通过键盘、手写板等输入设备获取待处理语句,还可以是通过语音获取设备获取语音信息后,再将语音信息转换为文字得到待处理语句,还可以是通过获取包括有待处理语句的图像,然后通过文字识别技术获取待处理语句等,本实施例对比不进行限制。
S120、将待处理语句输入翻译模型,得到待处理语句的同义句,其中,翻译模型由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练而获得。
在本实施例中,待处理语句的同义句是通过翻译模型获取的。该翻译模型是由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本训练得到的。其中,翻译模型典型的可以是Pointer Networks网络等。
具体来说,用户输入的搜索内容具体可以是用户在搜索引擎中输入的待搜索的内容,具体可以是一句话,也可以是一个词组,还可以是一个单词等,本实施例对此不进行限制。但是,为了使训练得到的翻译模型输出的同义句更加准确,训练样本对中的用户输入的搜索内容应尽量多地选取语句。
进一步地,搜索结果具体是指用户通过搜索引擎等具有搜索功能的工具对搜索内容进行搜索之后,得到的搜索结果。在本实施例中,并不是将所有的搜索结果都添加至训练样本对,而是将用户选取的搜索结果(即用户进行查看的搜索结果)的标题作为训练样本,如此可以保证训练样本的正确性和有效性。搜索结果的标题具体是指在搜索结果页面中的各搜索结果的标题。
进一步地,一个训练样本对由一个搜索内容以及用户选取的该搜索内容的一个搜索结果的标题组成。同一个搜索内容可以与用户选取的N各搜索结果的标题组成N个训练样本对。
本发明实施例提供了一种同义句的获取方法,通过使用由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练翻译模型进行训练,并使用训练得到的翻译模型获取语句的同义句,解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。
在上述各实施例的基础上,将翻译模型的训练过程,具体化为,包括:获取训练样本对;将训练样本对中的搜索内容作为输入,标题作为输出,对翻译模型进行训练,或将训练样本对中的标题作为输入,搜索内容作为输出,对翻译模型进行训练。
在本实施例中,可以按照下述两种方式对翻译模型进行训练:第一种,将一个训练样本对中的搜索内容作为输入,将该训练样本对中的标题作为输出,对翻译模型训练;第二种,将一个训练样本对中的标题作为输入,将该训练样本对中的搜索内容作为输出,对翻译模型进行训练。
这样设置的好处是:使得翻译模型的训练方式更加灵活多样。
在上述各实施例的基础上,将获取所述训练样本对,具体化为,包括:获取用户输入的搜索内容,以及用户选取的各搜索结果的标题;从用户选取的各搜索结果的标题中,选取与搜索内容相匹配的标题,作为相似标题;将搜索内容以及一个相似标题作为一个训练样本对。
首先,在本实施例中,并不是将搜索内容对应的所有的搜索结果的标题都添加至训练样本对,而是仅将用户选取的搜索结果的标题添加至训练样本对。可以理解的是,搜索结果中可能会存在与搜索内容的匹配度较低的搜索结果。因此,如果将所有搜索结果都添加至训练样本对,那么可能会降低训练样本的正确性。
因此,在本实施例中,添加至训练样本对的标题是用户选取的搜索结果的标题(一般来说,用户选取的搜索结果的标题与搜索内容都较为相关),并且进一步地,添加至训练样本对的标题还应是与搜索内容相匹配的标题,由此,可以保证训练样本对中的搜索内容与标题的相关度。
这样设置的好处是:提高训练样本对的正确性和有效性。
在上述各实施例的基础上,将从用户选取的各搜索结果的标题中,选取与搜索内容相匹配的标题,作为相似标题,具体化为:从用户选取的各搜索结果的标题中,选取与搜索内容的匹配字符数量大于设定数量阈值,和/或语义相似度大于设定相似度阈值的标题,作为相似标题。
在本实施例中,用户选取的搜索结果的标题是否与搜索内容相匹配由匹配字符数量和语义相似度中的任一种或两种确定。其中,匹配字符数量具体可以是用户选取的搜索结果的标题以及搜索内容中相同或相近的文字、词语的数量。语义相似度具体可以是用户选取的搜索结果的整个标题与整个搜索内容的语义相关度。
进一步地,当用户选取的搜索结果的标题,与搜索内容的匹配字符数量大于设定数量阈值时,或当用户选取的搜索结果的标题,与搜索内容的语义相似度大于设定相似度阈值时,则确认该用户选取的搜索结果的标题与搜索内容相匹配,可以添加至训练样本对。
这样设置的好处是:进一步提高训练样本对的正确性和有效性
在上述各实施例的基础上,将翻译模型的训练过程,进一步具体化为,包括:由训练样本对对原翻译模型进行训练后,再将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,而获得翻译模型。
可以理解的是,一种语义可以通过多个不同的语句进行表达,因此,用户输入的搜索内容可能会存在多个同义句。在使用搜索引擎进行搜索的场景下,可以通过对用户输入的搜索内容以及该搜索内容对应的多个同义句同时进行搜索,进而向用户提供更加准确、详尽及完善的搜索结果;在问答场景下,可以通过对用户输入的问题以及该问题对应的多个同义句同时进行答案查找,进而向用户提供更加准确的解答。
因此,在本实施例中,在对翻译模型进行训练之后,会将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,进而使得训练后的翻译模型可以同时输出多个同义句。
具体来说,一般的翻译模型都是一输入一输出。翻译模型对输入的语句进行翻译的过程中,实际上是对输入语句中的单字或词语逐一进行翻译。翻译模型中的词语翻译结果确定方式为,获取词典中的词语与当前被翻译词语的关联概率,并将关联概率最大的词语作为该当前被翻译词语的同义词,添加至翻译结果中。这种翻译方法只能输出一个同义句。
在本实施例中,为了使翻译模型同时输出多个同义句,将翻译模型中的词语翻译结果确定方式进行了修改,修改为获取词典中的词语与当前被翻译词语的关联概率,并将关联概率最大的设定数量的词语作为该当前被翻译词语的同义词,由此,翻译模型就可输出多个同义句。
这样设置的好处是:在搜索内容及其同义句共同应用的场景中,可以使得该场景下获得的,与搜索内容对应的结果更加准确。
在上述各实施例的基础上,将将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,具体化为:将集束搜索算法嵌入训练得到的翻译模型的解码过程。
在本实施例中,是通过将集束搜索算法嵌入训练得到的翻译模型的解码过程中,进而实现将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果。其中,集束搜索算法具体是指Beam Search算法。
这样设置的好处是:使翻译模型可以准确、快速地翻译得到多个同义句。
实施例二
图2是本发明实施例二提供的一种同义句获取装置的结构图。如图2所示,所述装置包括:语句获取模块201以及同义句获取模块202,其中,
语句获取模块201,用于获取待处理语句;
同义句获取模块202,用于将待处理语句输入翻译模型,得到待处理语句的同义句,其中,翻译模型由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练而获得。
本发明实施例提供了一种同义句的获取装置,该装置首先通过语句获取模块201获取待处理语句,然后通过同义句获取模块202将待处理语句输入翻译模型,得到待处理语句的同义句,其中,翻译模型由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练而获得。
该装置解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。
在上述各实施例的基础上,翻译模型的训练过程可以包括:
获取训练样本对;
将训练样本对中的搜索内容作为输入,标题作为输出,对翻译模型进行训练,或
将训练样本对中的标题作为输入,搜索内容作为输出,对翻译模型进行训练。
在上述各实施例的基础上,获取训练样本对,可以包括:
获取用户输入的搜索内容,以及用户选取的各搜索结果的标题;
从用户选取的各搜索结果的标题中,选取与搜索内容相匹配的标题,作为相似标题;
将搜索内容以及一个相似标题作为一个训练样本对。
在上述各实施例的基础上,从用户选取的各搜索结果的标题中,选取与搜索内容相匹配的标题,作为相似标题,具体可以为:
从用户选取的各搜索结果的标题中,选取与搜索内容的匹配字符数量大于设定数量阈值,和/或语义相似度大于设定相似度阈值的标题,作为相似标题。
在上述各实施例的基础上,翻译模型的训练过程可以包括:
由训练样本对对原翻译模型进行训练后,再将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,而获得翻译模型。
在上述各实施例的基础上,将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,具体可以包括:
将集束搜索算法嵌入训练得到的翻译模型的解码过程。
在上述各实施例的基础上,翻译模型可以为Pointer Networks网络。
本发明实施例所提供的同义句的获取装置可执行本发明任意实施例所提供的同义句的获取方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的社会道路的协调方法。
实施例三
图3为本发明实施例三提供的一种设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性设备12的框图。图3显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的同义句的获取方法。也即:获取待处理语句;将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。
实施例四
本发明实施例四还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明任意实施例所述的同义句的获取方法。也即:获取待处理语句;将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种同义句的获取方法,其特征在于,包括:
获取待处理语句;
将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得;
按照下述方式对翻译模型进行训练:将一个训练样本对中的搜索内容作为输入,将该训练样本对中的标题作为输出,对翻译模型训练;
或者,将一个训练样本对中的标题作为输入,将该训练样本对中的搜索内容作为输出,对翻译模型进行训练;
所述翻译模型的训练过程包括:
由所述训练样本对对原翻译模型进行训练后,再将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,而获得所述翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述翻译模型的训练过程包括:
获取所述训练样本对。
3.根据权利要求2所述的方法,其特征在于,获取所述训练样本对,包括:
获取用户输入的搜索内容,以及所述用户选取的各搜索结果的标题;
从所述用户选取的各搜索结果的标题中,选取与所述搜索内容相匹配的标题,作为相似标题;
将所述搜索内容以及一个所述相似标题作为一个训练样本对。
4.根据权利要求3所述的方法,其特征在于,从所述用户选取的各搜索结果的标题中,选取与所述搜索内容相匹配的标题,作为相似标题,具体包括:
从所述用户选取的各搜索结果的标题中,选取与所述搜索内容的匹配字符数量大于设定数量阈值,和/或语义相似度大于设定相似度阈值的标题,作为相似标题。
5.根据权利要求1所述的方法,其特征在于,将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,具体包括:
将集束搜索算法嵌入训练得到的翻译模型的解码过程。
6.根据权利要求5所述的方法,其特征在于,所述翻译模型为Pointer Networks网络。
7.一种同义句的获取装置,其特征在于,包括:
语句获取模块,用于获取待处理语句;
同义句获取模块,用于将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得;
按照下述方式对翻译模型进行训练:将一个训练样本对中的搜索内容作为输入,将该训练样本对中的标题作为输出,对翻译模型训练;
或者,将一个训练样本对中的标题作为输入,将该训练样本对中的搜索内容作为输出,对翻译模型进行训练;
所述翻译模型的训练过程包括:
由所述训练样本对对原翻译模型进行训练后,再将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,而获得所述翻译模型。
8.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的同义句的获取方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的同义句的获取方法。
CN201910122455.3A 2019-02-19 2019-02-19 同义句的获取方法及装置、设备及存储介质 Active CN111597800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910122455.3A CN111597800B (zh) 2019-02-19 2019-02-19 同义句的获取方法及装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122455.3A CN111597800B (zh) 2019-02-19 2019-02-19 同义句的获取方法及装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111597800A CN111597800A (zh) 2020-08-28
CN111597800B true CN111597800B (zh) 2023-12-12

Family

ID=72189985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122455.3A Active CN111597800B (zh) 2019-02-19 2019-02-19 同义句的获取方法及装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111597800B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182348B (zh) * 2020-11-09 2024-03-29 百度国际科技(深圳)有限公司 语义匹配判定方法、装置、电子设备、计算机可读介质
CN112395867B (zh) * 2020-11-16 2023-08-08 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN113590796B (zh) * 2021-08-04 2023-09-05 百度在线网络技术(北京)有限公司 排序模型的训练方法、装置和电子设备
CN116562268B (zh) * 2023-04-07 2024-01-23 摩尔线程智能科技(北京)有限责任公司 同义句库的生成方法及装置、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004457A (ja) * 2005-06-23 2007-01-11 Advanced Telecommunication Research Institute International コーパス変換装置及びコンピュータプログラム
CN101305360A (zh) * 2005-11-08 2008-11-12 微软公司 索引和搜索带有文本元数据的语音
CN103049474A (zh) * 2011-10-25 2013-04-17 微软公司 搜索查询和文档相关数据翻译
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN105975558A (zh) * 2016-04-29 2016-09-28 百度在线网络技术(北京)有限公司 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN106326386A (zh) * 2016-08-16 2017-01-11 百度在线网络技术(北京)有限公司 搜索结果的展示方法和装置
CN106649605A (zh) * 2016-11-28 2017-05-10 百度在线网络技术(北京)有限公司 一种推广关键词的触发方法及装置
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
CN108304390A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US9104733B2 (en) * 2012-11-29 2015-08-11 Microsoft Technology Licensing, Llc Web search ranking

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004457A (ja) * 2005-06-23 2007-01-11 Advanced Telecommunication Research Institute International コーパス変換装置及びコンピュータプログラム
CN101305360A (zh) * 2005-11-08 2008-11-12 微软公司 索引和搜索带有文本元数据的语音
CN103049474A (zh) * 2011-10-25 2013-04-17 微软公司 搜索查询和文档相关数据翻译
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN105975558A (zh) * 2016-04-29 2016-09-28 百度在线网络技术(北京)有限公司 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN106326386A (zh) * 2016-08-16 2017-01-11 百度在线网络技术(北京)有限公司 搜索结果的展示方法和装置
CN106649605A (zh) * 2016-11-28 2017-05-10 百度在线网络技术(北京)有限公司 一种推广关键词的触发方法及装置
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
CN108304390A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器译文自动评价中基于IHMM的近义词匹配方法研究;李茂西;《中文信息学报》;20161231;第30卷(第4期);第117-123页 *

Also Published As

Publication number Publication date
CN111597800A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
US10402433B2 (en) Method and apparatus for recommending answer to question based on artificial intelligence
CN110287278B (zh) 评论生成方法、装置、服务器及存储介质
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US9721205B2 (en) Clarification of submitted questions in a question and answer system
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
US20200210468A1 (en) Document recommendation method and device based on semantic tag
US11308937B2 (en) Method and apparatus for identifying key phrase in audio, device and medium
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
CN113495900B (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN108121697B (zh) 一种文本改写的方法、装置、设备和计算机存储介质
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN112256860A (zh) 客服对话内容的语义检索方法、系统、设备及存储介质
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
CN109710951B (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
US10360280B2 (en) Self-building smart encyclopedia
CN109600681B (zh) 字幕显示方法、装置、终端及存储介质
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant