CN105426551A

CN105426551A - 文言文搜索方法和装置

Info

Publication number: CN105426551A
Application number: CN201511023437.8A
Authority: CN
Inventors: 马晋; 邢利; 郑锦锋; 王明华; 陈晨; 刘晓文; 郭震宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2016-03-23

Abstract

本发明提出一种文言文搜索方法和装置，该文言文搜索方法包括：接收白话文；根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文；在搜索结果页上，展现所述搜索结果。该方法能够基于白话文实现对相关文言文的搜索，并且可以降低用户查找成本、更好满足用户需求。

Description

文言文搜索方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种文言文搜索方法和装置。

背景技术

通过引经据典，提升撰写中文文章的格调，是中文文章写作中的一种常用手法。根据文章的上下文语境和核心思想，引用古代经典文献中的名言警句，可以提升文章的意境，体现出作者的文学修养和写作功底。因此存在文言文搜索的需求。相关技术中，可以在专门的文言文网站中查找文言文，或者，在翻译网站中将白话文翻译成文言文，但是，在文言文网站中查找的方式需要用户在众多的文言文中进行筛选，增加了用户查找成本，在翻译网站进行翻译的方式通常是将白话文直译为文言文，比如，将“关于读书的文言文”翻译成“言读书之文言文”，与用户需求相去甚远。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种文言文搜索方法，该方法可以基于白话文实现对相关文言文的搜索，并且可以降低用户查找成本、更好满足用户需求。

本发明的另一个目的在于提出一种文言文搜索装置。

为达到上述目的，本发明第一方面实施例提出的文言文搜索方法，包括：接收白话文；根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文；在搜索结果页上，展现所述搜索结果。

本发明第一方面实施例提出的文言文搜索方法，通过对白话文进行搜索，获取相关的文言文，可以基于白话文实现对相关文言文的搜索，并且由于可以通过搜索直接获取相关的文言文，不需要用户在种类繁多的文言文中进行查找，降低用户查找成本，另外，获取的是与白话文相关的文言文，而不是对白话文的直译结果，可以更好满足用户需求。

为达到上述目的，本发明第二方面实施例提出的文言文搜索装置，包括：接收模块，用于接收白话文；获取模块，用于根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文；展现模块，用于在搜索结果页上，展现所述搜索结果。

本发明第二方面实施例提出的文言文搜索装置，通过对白话文进行搜索，获取相关的文言文，可以基于白话文实现对相关文言文的搜索，并且由于可以通过搜索直接获取相关的文言文，不需要用户在种类繁多的文言文中进行查找，降低用户查找成本，另外，获取的是与白话文相关的文言文，而不是对白话文的直译结果，可以更好满足用户需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的文言文搜索方法的流程示意图；

图2是本发明实施例中搜索结果页的界面图；

图3是本发明实施例中文言文详情页面的界面图；

图4是本发明实施例中引证详情页面的界面图；

图5是本发明另一实施例提出的文言文搜索方法的流程示意图；

图6是本发明另一实施例提出的文言文搜索方法的流程示意图；

图7是本发明实施例中确定被引量的示意图；

图8是本发明另一实施例提出的文言文搜索装置的结构示意图；

图9是本发明另一实施例提出的文言文搜索装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的文言文搜索方法的流程示意图，该方法包括：

S11：接收白话文。

例如，如图2所示，页面上包括：搜索框，用户可以在搜索框内输入白话文，输入方式可以包括：语音输入或文本输入等。

另外，用户在输入白话文时，可以只需输入引用文言文的关键场景或上下文，例如，输入的白话文21是“形容读书的文言文”。

S12：根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文。

S13：在搜索结果页上展现所述搜索结果。

一些实施例中，如图2所示，搜索结果页上还可以包括：结果分类22，从而可以接收用户选择的结果分类，并展现属于用户选择的结果分类的搜索结果。例如，用户通过标签(tab)切换选择结果分类。结果分类可以设置，例如包括：“全部文献”、“古文”、“诗词”、“小说”等四个大类目，可以设置默认选择的结果分类，例如，默认选择“全部文献”。

一些实施例中，如图2所示，搜索结果页上还可以包括：时间段，时间段在图2中用时光轴23表示，从而可以接收用户选择的时间段，并展现用户选择的时间段的搜索结果。时间段的时间范围可以设置，例如，从先秦时期到民国时期。

一些实施例中，如图2所示，搜索结果页上包括搜索结果24，每条搜索结果可以包括：标题(title)、作者、出处、时代、被引量和摘要。

可以将与白话文相关文言文作为搜索结果的标题。

一些实施例中，该方法还可以包括：

将所述文言文作为所述搜索结果的标题，当接收到搜索结果的标题的点击指令后，跳转到文言文详情页面，所述文言文详情页面中包括：所述文言文的出处内容以及出处内容的白话文译文。

例如，当点击一个搜索结果的标题后，可以跳转到如图3所示的文言文详情页面，文言文详情页面中包括：文言文的出处内容31和出处内容的白话文译文32。

一些实施例中，如图2所示，搜索结果页上还可以包括：排序方式25，从而可以接收用户选择的排序方式，根据用户选择的排序方式对所述搜索结果进行排序，并展现排序后的搜索结果。排序方式可以设置，例如包括：相关性、被引量、时间顺序。

一些实施例中，如图2所示，搜索结果还可以包括：被引量26，被引量是对应的搜索结果被其他文章引用的次数。

一些实施例中，该方法还可以包括：

当接收到对所述被引量的点击指令后，跳转到引证详情页面，所述引证详情页面中包含对所述文言文的引证情况。

例如，接收到用于对一个搜索结果的被引量的点击指令后，可以跳转到如图4所示的引证详情页面，引证详情页面中包含对所述文言文的引证情况，例如，引证该文言文的文章的题目、作者、期刊、出现在引证文章的位置等。

一些实施例中，参见图5，根据白话文进行搜索，获取搜索结果的流程可以包括：

S121：根据所述白话文进行用户需求分析，获取所述白话文的关键词。

其中，关键词包括白话文中的核心词，或者还可以包括与核心词相关的同义词、近义词等。

白话文中的核心词可以根据预先统计，确定句式的核心词，再根据当前用户输入的白话文的句式，提取对应的核心词。

通过语义分析，抽象出用户query中所想表达的核心词，并通过同义词、近义词等方式扩展，使用扩展后的白话文query查询索引，得到白话文对应的文言文集合。通过统计用户输入query的形态，以及命中搜索结果的点击情况，建立统计学习模型，通过机器学习训练得到用户输入的核心关键字，去除无用的噪声词。

如：“关于XXX的文言文”，对本检索装置来说，“关于XXX的文言文”是一种常用的表述文言需求的句式，而用户在点击结果中经统计发现，大部分关键字命中搜索结果中的XXX，因此可以确定此用户输入的句式的核心词为“XXX”，通过学习方式记住此句式，反馈到用户query处理模块中，过滤无用的噪声，以核心词作为输入关键字，提升检索效果。

S122：根据预先建立的倒排索引，获取与所述关键词对应的文言文，所述倒排索引中对应记录白话文与文言文。

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号(DocID)，单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项(Posting)，包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。如图6所示，是倒排列表的示意图，在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引。

本实施例中，倒排索引中对应记录白话文与文言文，例如，对应一个白话文的单词(如读书)，该单词的倒排类别中可以记录对应的文言文所在文档编号(DocID)以及该文言文在该文档中的位置(Posting)，从而可以找到与白话文的单词对应的文言文。

之后，可以展现搜索结果，搜索结果中包括与白话文的关键词对应的文言文(S131)。

一些实施例中，参见图5，该方法还可以包括：

S14：获取语料，所述语料包括文言文及文言文对应的白话文。

其中，可以对已有的文言文及对文言文翻译得到的白话文进行收集，获取语料，获取的语料例如表1所示：

表1

S15：对所述语料进行数据预处理。

例如，根据标点符号完成白话文和文言文的句子切分。

S16：载入词语映射词典，根据所述词语映射词典对数据预处理后的语料进行句子对齐，得到白话文与文言文的对应集合。

句子对齐是机器翻译中的一个基本概念，主要是指采用机器自动的方式得到原始语料文本句子与翻译语料句子的一一对应关系。这里采用的对齐方法是基于句子长度以及词典的对齐方式，通过贝叶斯网络和文言-白话映射词典实现句子对齐。

词语映射词典主要是文言文词语与白话文词语的对应关系表，主要用于句子边界定位。在对齐处理时，首先根据句子长度对齐，其基本思路是按句子出现的先后顺序选择文言文和白话文句子长度相近的句子对以及上下文句子长度分布相近的句子对作为基本候选集。得到这个候选集之后，再根据白话-文言映射词典中的词语映射对做句首、句尾的边界定位和调整，最终得到句子对应集合，产出白话文和文言文的句子对应关系。

S17：根据所述白话文与文言文的对应集合建立倒排索引。

在得到白话文与文言文的对应关系，可以依据该对应关系生成倒排索引。

例如，获取白话文的关键词，并获取对应的文言文所在文档的编号和位置等信息，并根据该关键词和对应的文档编号和位置信息，生成该关键词的倒排列表，由多个关键词的倒排列表组成倒排索引。

进一步的，本实施例中在搜索结果中还可以包括被引量，因此，在建立倒排索引时，还可以确定文言文的被引量并记录，从而在白话文搜索时还可以展现对应的文言文的被引量。

一些实施例中，参见图7，根据所述白话文与文言文的对应集合建立倒排索引，包括：

S171：在白话文与文言文的对应集合中，对白话文进行篇章分析，得到白话文中的关键词。

关键词包括：核心词和核心词的同义词和近义词等。

篇章分析是白话文语义进行段落分析，抽取段落核心思想，转化为一系列核心词，补充到白话文索引中，以满足用户输入的抽象query。

这里主要采用句子核心词+同义词词典扩充的方式来扩充关键词。例如句子：“在夜间的屋子里找东西,最好的就是火了；在当世寻找真理,最好的就是书了.形容读书之重要，做事要讲求方法”通过核心词抽取算法，抽取出“找东西、火、书、读书、方法”等关键词，通过上下文的相关描述，可以发现，这句话中“书”和“读书”高频贡献，因而得到核心词。再将“读书”的近义词“阅读”、“学习”、“求知”等补充到索引中，扩大白话文检索时的召回效果。

S172：在白话文与文言文的对应集合中，对文言文进行引用关系分析，得到文言文的被引量。

文言文引用分析是指使用大数据分析算法，将文言文各名句与中文现代当代期刊、报纸、互联网内容、学术资料等全部文章类型网页匹配，得到每条文言文被引用的次数，呈现给用户体现文言文名句的“新鲜度”的被引量。

在统计被引量时，可以用所有的名句到所有的互联网资源内匹配一遍，计算其出现次数。

另一种方式是将所有互联网资源建立内容索引库，以名句作为query发起检索，计算精确命中的搜索结果条数得到被引量，此方法的优势有两个，其一可以实现增量，新增名句只要做一次检索可以快速拿到被引量，新增的互联网网页也可以通过增量方式添加到内容索引库中，其二可以在通用搜索引擎搜索返回结果上做过滤得到文言文名句在不同类别文章中的被引量，成本极低。

如图8所示，在确定被引量时，可以将期刊、报纸、学术资源、网页等互联网资源组成内容索引库(S81)，对应文言文数据库中的每条文言文(也可以称为文言文名句)，在内容索引库中进行搜索，并根据预设的被引量计算模型，计算出每条文言文的被引量(S82)。

S173：根据所述白话文中的关键词和所述白话文对应的文言文，以及所述文言文的被引量，建立倒排索引。

例如，通过篇章分析，可以得到白话文中的核心词及同义词和近义词等。

之后，可以将核心词及同义词和近义词分别作为单词，与该白话文对应的文言文建立倒排列表，从而多个单词的倒排列表组成倒排索引。

另外，在引用关系分析时，可以得到每个文言文的被引量，从而在倒排列表中不仅会记录文档编号、文言文在文档中的位置信息等，还可以记录文言文的被引量。

本实施例中，通过对白话文进行搜索，获取相关的文言文，可以基于白话文实现对相关文言文的搜索，并且由于可以通过搜索直接获取相关的文言文，不需要用户在种类繁多的文言文中进行查找，降低用户查找成本，另外，获取的是与白话文相关的文言文，而不是对白话文的直译结果，可以更好满足用户需求。进一步的，只需输入引用文言文的关键场景或上下文，可以实现简单的交互方式，提高简洁性。进一步的，通过搜索结果可以得到文言文的出处内容，可以使得搜索结果更加令人信服，而不是机器随意生成的文言文，提高了搜索结果的精准性。进一步的，通过对每条搜索结果给出被引量，可以使得用户根据被引量确定文言文的“新鲜性”，以便在引用过程中体现格调和新意。

图9是本发明另一实施例提出的文言文搜索装置的结构示意图，该装置90包括：接收模块91、获取模块92和展现模块93。

接收模块91，用于接收白话文；

获取模块92，用于根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文；

展现模块93，用于在搜索结果页上，展现所述搜索结果。

可选的，所述获取模块92具体用于：

根据所述白话文进行用户需求分析，获取所述白话文的关键词；

根据预先建立的倒排索引，获取与所述关键词对应的文言文，所述倒排索引中对应记录白话文与文言文。

一些实施例中，参见图10，该装置90还包括：

收集模块94，用于获取语料，所述语料包括文言文及文言文对应的白话文；

预处理模块95，用于对所述语料进行数据预处理；

句子对齐模块96，用于载入词语映射词典，根据所述词语映射词典对数据预处理后的语料进行句子对齐，得到白话文与文言文的对应集合；

建立模块97，用于根据所述白话文与文言文的对应集合建立倒排索引。

可选的，所述建立模块97具体用于：

在白话文与文言文的对应集合中，对白话文进行篇章分析，得到白话文中的关键词；

在白话文与文言文的对应集合中，对文言文进行引用关系分析，得到文言文的被引量；

根据所述白话文中的关键词和所述白话文对应的文言文，以及所述文言文的被引量，建立倒排索引。

可选的，建立模块97用于对文言文进行引用关系分析，得到文言文的被引量，包括：

根据收集的互联网资源建立内容索引库；

对应每条文言文，根据预设的被引量计算模型，在所述内容索引库中进行搜索，得到每条文言文的被引量。

一些实施例中，所述搜索结果页上还包括：结果分类，所述展现模块具体用于：

接收用户选择的结果分类；

展现属于用户选择的结果分类的搜索结果。

一些实施例中，所述搜索结果页上还包括：时间段，所述展现模块具体用于：

接收用户选择的时间段；

展现属于用户选择的时间段的搜索结果。

一些实施例中，所述展现模块还用于：

一些实施例中，所述搜索结果页上还包括：排序方式，所述展现模块具体用于：

接收用户选择的排序方式，所述排序方式包括：相关性、被引量、时间顺序；

根据用户选择的排序方式对所述搜索结果进行排序，并展现排序后的搜索结果。

一些实施例中，所述搜索结果还包括：被引量，所述被引量是对应的搜索结果被其他文章引用的次数。

展现模块还用于：

上述模块的具体功能可以参见方法实施例中的相关描述，在此不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文言文搜索方法，其特征在于，包括：

接收白话文；

根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文；

在搜索结果页上，展现所述搜索结果。

2.根据权利要求1所述的方法，其特征在于，所述搜索结果页上还包括：结果分类，所述展现所述搜索结果，包括：

接收用户选择的结果分类；

展现属于用户选择的结果分类的搜索结果。

3.根据权利要求1所述的方法，其特征在于，所述搜索结果页上还包括：时间段，所述展现所述搜索结果，包括：

接收用户选择的时间段；

展现属于用户选择的时间段的搜索结果。

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述搜索结果页上还包括：排序方式，所述展现所述搜索结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述搜索结果还包括：被引量，所述被引量是对应的搜索结果被其他文章引用的次数。

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述白话文进行搜索，获取搜索结果，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

获取语料，所述语料包括文言文及文言文对应的白话文；

对所述语料进行数据预处理；

载入词语映射词典，根据所述词语映射词典对数据预处理后的语料进行句子对齐，得到白话文与文言文的对应集合；

根据所述白话文与文言文的对应集合建立倒排索引。

10.根据权利要求9所述的方法，其特征在于，所述根据所述白话文与文言文的对应集合建立倒排索引，包括：

11.根据权利要求10所述的方法，其特征在于，所述对文言文进行引用关系分析，得到文言文的被引量，包括：

根据收集的互联网资源建立内容索引库；

12.根据权利要求1所述的方法，其特征在于，所述接收白话文，包括：

接收文本或语音输入的白话文。

13.一种文言文搜索装置，其特征在于，包括：

接收模块，用于接收白话文；

获取模块，用于根据所述白话文进行搜索，获取搜索结果，所述搜索结果包括：与所述白话文相关的文言文；

展现模块，用于在搜索结果页上，展现所述搜索结果。

14.根据权利要求13所述的装置，其特征在于，所述获取模块具体用于：

15.根据权利要求14所述的装置，其特征在于，还包括：

收集模块，用于获取语料，所述语料包括文言文及文言文对应的白话文；

预处理模块，用于对所述语料进行数据预处理；

句子对齐模块，用于载入词语映射词典，根据所述词语映射词典对数据预处理后的语料进行句子对齐，得到白话文与文言文的对应集合；

建立模块，用于根据所述白话文与文言文的对应集合建立倒排索引。