CN112052334A

CN112052334A - 一种文本释义方法、装置及存储介质

Info

Publication number: CN112052334A
Application number: CN202010910219.0A
Authority: CN
Inventors: 董泽楠; 董文平; 陈微
Original assignee: Guangzhou Giantan Information Technology Co ltd
Current assignee: Guangzhou Giantan Information Technology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-08
Anticipated expiration: 2040-09-02
Also published as: CN112052334B

Abstract

本发明公开了一种文本释义方法、装置及存储介质，所述方法包括：获得待释义文本以及所述待释义文本所在的文档的学科类型；根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配；其中，所述学科索引库包括学科词汇概念索引库和学科句段索引库；所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义；所述学科句段索引库存储有若干在对应学科下的文档信息；根据相似度匹配结果显示待释义文本对应的释义内容。通过实施本发明实施例能够提高文本释义的准确性。

Description

一种文本释义方法、装置及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种文本释义方法、装置及存储介质。

背景技术

随着多样化移动终端的普及，电子阅读越来越普及，用户在通过移动终端进行文档阅读的过程中有事会遇到难以理解的词汇或是字段，为解决这一问题，现有的电子阅读软件通常配置有文本释义功能，用户选定自己无法理解的文本后，由文本释义功能对选中的文本进行文本含义的搜索匹配，然后再对释义文本进行显示，以辅助用户阅读。

但现有的文本释义方法，主要是在用户选中文本后，跳转至第三方搜索引擎，进行字符串的匹配，然后将搜索到的释义文本进行显示，但在实际过程中，同一个文本在不同的学科领域会有不同的解释，即存在一词多义的现象。例如“八卦”这个词在传媒领域可能指代的是一些小道信息或新闻。而在中国辩证法哲学中指的是八个卦，就是《周易·系辞下》的那个八卦，是一套用三组阴阳组成的形而上的哲学符号。现有的电子阅读软件中的文本释义功能，通过第三方搜索引擎进行字符串的匹配，无法根据文本所在的文档的学科领域进行词义的辨析，有时会导致所显示的释义文本不是选定文本在其所在文档中的准确含义，导致释义出错，误导用户的问题。

发明内容

本发明实施例提供一种文本释义方法、装置及存储介质，能根据文本所在的文档的学科领域，进行文本释义，提高文本释义的准确性。

本发明一实施例提供了一种文本释义，包括获得待释义文本以及所述待释义文本所在的文档的学科类型；

根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配；其中，所述学科索引库包括学科词汇概念索引库和学科句段索引库；所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义；所述学科句段索引库存储有若干在对应学科下的文档信息；

根据相似度匹配结果显示待释义文本对应的释义内容。

进一步地，所述根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配，具体包括：

判断所述待释义文本的文本类型；其中，所述文本类型包括词汇或句段；

若所述待释义文本为词汇，则根据所述待释义文本所在的文档的学科类型，在对应的学科词汇概念索引库中进行词汇语义相似度匹配；

若所述待释义文本为句段，则根据所述待释义文本所在的文档的学科类型，在对应的学科句段索引库中进行余弦文本相似度匹配。

进一步地，通过以下方式识别文档的学科类型：

对待识别文档进行分词处理，获得若干分词；

根据各所述分词词频确定各分词的权重系数，继而根据各所述分词以及各所述分词的权重系数，通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离；

将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。

在上述方法项实施例的基础上，本发明对应提供了装置项实施例：

本发明一实施例提供了一种，文本释义装置包括数据获取模块、相似度匹配模块以及释义内容显示模块；

所述数据获取模块，用于获得待释义文本以及所述待释义文本所在的文档的学科类型；

所述相似度匹配模块，用于根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配；所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义；所述学科句段索引库存储有若干在对应学科下的文档信息；

所述释义内容显示模块，用于根据相似度匹配结果显示待释义文本对应的释义内容。

进一步地，所述相似度匹配模块根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配，具体包括：判断所述待释义文本的文本类型；其中，所述文本类型包括词汇或句段；

进一步地，还包括文档学科类型识别模块；

所述文档学科类型识别模块，用于对待识别文档进行分词处理，获得若干分词；根据各所述分词词频确定各分词的权重系数，继而根据各所述分词以及各所述分词的权重系数，通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离；将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。

在本发明方法项实施例的基础上，对应提供了存储介质项实施例；

本发明一实施例提供了一种存储介质，其中，所述计算机程序运行时控制所述存储介质所在设备实现本发明任意一项所述的文本释义方法。

通过实施本发明实施例具有如下有益效果：

本发明实施例提供了一种文本释义方法、装置及存储介质，所述方法在获取待释义文本时，同时获取待释义文本所在的文档的学科类型，然后根据学科类型在对应的学科索引中进行相似度匹配，从而得到对应学科下的匹配结果，最后根据匹配结果得到对应的释义内容进行显示。相比与现有技术，本发明在进行文本释义时，是基于文本所在的文档的学科类型，然后在对应的学科索引库中，查找释义内容，这样得到的示意内容都是基于对应学科下的释义内容，从而避免因一词多意的问题而导致释义内容不准确的问题，提高了文本释义的准确性。

附图说明

图1是本发明一实施例提供的一种文本释义方法的流程示意图。

图2是本发明一实施例提供的一种文本释义装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供了一种文本释义方法包括：

步骤S101:获得待释义文本以及所述待释义文本所在的文档的学科类型；

步骤S102:根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配；其中，所述学科索引库包括学科词汇概念索引库和学科句段索引库；所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义；所述学科句段索引库存储有若干在对应学科下的文档信息；

步骤S103：根据相似度匹配结果显示待释义文本对应的释义内容。

对于步骤S101、上述待释义文本包括词汇或句段；当用户在阅读过程中选定一文本，作为需要释义的文本时；获取到用户所选定的文本即上述待释义文本，与此同时获取待释义文本所在文档的学科类型；

优选的，文档的学科类型可以是在文档上传至系统时，用户根据自己对文档内容的认知，选择对应的学科标签，完成文档的学科类型的分类；例如，假设用户在阅读之前上传了一本有关法律的书籍或文档，那么在上传之后，可以选择“法律”这一标签，实现对所上传的书籍或文档的学科类型的分类。若后续用户在阅读该书籍或文档时，选择对应的文本内容，进行释义查询时，系统会获取用户所选定的文本内容，并获取“法律”这一学科类型信息。

而在另一个优先的是实施例中，也可实现对文档的学科类型进行自动化识别，具体方式如下：

对待识别文档进行分词处理，获得若干分词；根据各所述分词词频确定各分词的权重系数，继而根据各所述分词以及各所述分词的权重系数，通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离；将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。

在上述方式执行之前，需要预先设定每个学科类型对应的几篇文档或书籍，可通过人为分类的形式，提前在各个学科类型下存储若干文档或书籍，将这些文档作为上述已知学科分类文档。一旦有新的文档上传时即可按上述方法，对新的文档进行学科类型的自动化分类。

对于步骤S102、上述学科索引库包括学科词汇概念索引库和学科句段索引库；学科词汇概念索引库中存储有若干在对应学科下的词汇释义；例如一个医学的词汇概念索引库中会存储有若干医学词汇及对应的释义内容。例如：医学词汇:门静脉；释义内容：指的是肝门静脉和垂体门静脉。肝门静脉由脾静脉(肠系膜下静脉注入脾静脉)、肠系膜上静脉汇合而成，回收来自腹腔脏器的血液；

而学科句段索引库存储有若干在对应学科下的文档信息；例如一个医学句段索引库中会存储有若干医学文档，例如医学期刊、书籍、报告；更具体的例如：《医学免疫学》、《病理学》等等。

在一个优选的实施例中，所述根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配，具体包括：

在进行文本释义的时候，首先要进行文本类型的判断，判断所选定的文本是词汇还是句段，具体的对选定的文本内容进行分词，如果分词只有一个词，直接判别为词汇；如果分词是多个词，那么则需要在对应的学科词汇概念索引库进行匹配，如果所有被分出的所有词都能命中，也将识别词汇；否则将选定的文本识别为句段：例如：如果选定的文本是“中国”，那么分词是1个词，那么就是一个词汇，如果选定的文本是“5G套餐”，分词是“5G”“套餐”，那么在对应的学科词汇概念索引库去匹配，如果能匹配到“5G”“套餐”这两个词，那么就是一个词汇，否则判定为句段。

在完成待释义文本类型的判断之后，如果是词汇，则在对应学科类型的学科词汇概念索引库中进行词汇语义相似度匹配，将相似度最高的词汇的释义内容作为待释义文本的释义内容；当然在其他实施例中也可以将相似度前几位(例如是前3位)的词汇的释义内容作为待释义文本的释义内容；具体的，假设待释义文本为“病毒”，如果待释义文本所在的文档的学科类型为医学，那么会在医学词汇概念索引库中进行词汇语义相似度匹配，例如在医学词汇概念索引库匹配到了“病毒”这个词汇，其释义为：“一种个体微小，结构简单，只含一种核酸(DNA或RNA)，必须在活细胞内寄生并以复制方式增殖的非细胞型生物”则将这一内容作为待释义文本对应释义内容。如果待释义文本所在的文档的学科类型为计算机学科，那么会在计算机学科词汇概念索引库中进行词汇语义相似度匹配，例如在医学词汇概念索引库匹配到了“病毒”这个词汇，其释义为：“编制者在计算机程序中插入的破坏计算机功能或者数据的代码，能影响计算机使用，能自我复制的一组计算机指令或者程序代码”则将这一内容作为待释义文本的释义内容。

如果是句段，则在对应学科类型的学科句段索引库中进行余弦文本相似度度匹配，将相似度最高文本内容，作为待释义句段对应的释义内容；当然在其他实施例中也可以将文本相似度前几位(例如是前3位)的文本内容作为待释义文本的释义内容；需要说明的是若选定的文本是句段，在本发明中通过对应学科类型的学科句段索引库中存储的文本信息(书籍，期刊等)，匹配相似度符合要求的文本内容，作为释义内容。

对于步骤S103、根据上述步骤S102所提及的匹配方法，将匹配得到的内容，作为待释义文本对应的释义内容，然后进行显示。

如图2所示，本发明一实施例提供了一种文本释义装置，包括数据获取模块、相似度匹配模块以及释义内容显示模块；

所述相似度匹配模块，用于根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配；其中，所述学科索引库包括学科词汇概念索引库和学科句段索引库；所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义；所述学科句段索引库存储有若干在对应学科下的文档信息；

在一个优选的实施例中，所述相似度匹配模块根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配，具体包括：判断所述待释义文本的文本类型；其中，所述文本类型包括词汇或句段；

在一个选的实施例中，还包括文档学科类型识别模块；

需要说明的是，上述装置项实施例是与本发明方法项实施例相对应的，其能够实现本发明任意一项方法项实施例所述的文本释义方法。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备实现本发明任意一项所述的文本释义方法。

上述存储介质为计算机可读存储介质，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种文本释义方法，其特征在于，包括：

获得待释义文本以及所述待释义文本所在的文档的学科类型；

根据相似度匹配结果显示待释义文本对应的释义内容。

2.如权利要求1所述的种文本释义方法，所述根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配，具体包括：

3.如权利要求1所述的种文本释义方法，其特征在于，通过以下方式识别文档的学科类型：

对待识别文档进行分词处理，获得若干分词；

4.一种文本释义装置，其特征在于，包括数据获取模块、相似度匹配模块以及释义内容显示模块；

5.如权利要求4所示的文本释义装置，其特征在于，所述相似度匹配模块根据所述待释义文本所在的文档的学科类型，在对应的学科索引库中进行相似度匹配，具体包括：判断所述待释义文本的文本类型；其中，所述文本类型包括词汇或句段；

6.如权利要求4所示的文本释义装置，其特征在于，还包括文档学科类型识别模块；

7.一种存储介质，所述存储介质包括存储的计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备实现如权利要求1-3任意一项所述的文本释义方法。