CN112052334A - 一种文本释义方法、装置及存储介质 - Google Patents

一种文本释义方法、装置及存储介质 Download PDF

Info

Publication number
CN112052334A
CN112052334A CN202010910219.0A CN202010910219A CN112052334A CN 112052334 A CN112052334 A CN 112052334A CN 202010910219 A CN202010910219 A CN 202010910219A CN 112052334 A CN112052334 A CN 112052334A
Authority
CN
China
Prior art keywords
text
subject
document
paraphrased
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010910219.0A
Other languages
English (en)
Other versions
CN112052334B (zh
Inventor
董泽楠
董文平
陈微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Giantan Information Technology Co ltd
Original Assignee
Guangzhou Giantan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Giantan Information Technology Co ltd filed Critical Guangzhou Giantan Information Technology Co ltd
Priority to CN202010910219.0A priority Critical patent/CN112052334B/zh
Publication of CN112052334A publication Critical patent/CN112052334A/zh
Application granted granted Critical
Publication of CN112052334B publication Critical patent/CN112052334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本释义方法、装置及存储介质,所述方法包括:获得待释义文本以及所述待释义文本所在的文档的学科类型;根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;其中,所述学科索引库包括学科词汇概念索引库和学科句段索引库;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;根据相似度匹配结果显示待释义文本对应的释义内容。通过实施本发明实施例能够提高文本释义的准确性。

Description

一种文本释义方法、装置及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本释义方法、装置及存储介质。
背景技术
随着多样化移动终端的普及,电子阅读越来越普及,用户在通过移动终端进行文档阅读的过程中有事会遇到难以理解的词汇或是字段,为解决这一问题,现有的电子阅读软件通常配置有文本释义功能,用户选定自己无法理解的文本后,由文本释义功能对选中的文本进行文本含义的搜索匹配,然后再对释义文本进行显示,以辅助用户阅读。
但现有的文本释义方法,主要是在用户选中文本后,跳转至第三方搜索引擎,进行字符串的匹配,然后将搜索到的释义文本进行显示,但在实际过程中,同一个文本在不同的学科领域会有不同的解释,即存在一词多义的现象。例如“八卦”这个词在传媒领域可能指代的是一些小道信息或新闻。而在中国辩证法哲学中指的是八个卦,就是《周易·系辞下》的那个八卦,是一套用三组阴阳组成的形而上的哲学符号。现有的电子阅读软件中的文本释义功能,通过第三方搜索引擎进行字符串的匹配,无法根据文本所在的文档的学科领域进行词义的辨析,有时会导致所显示的释义文本不是选定文本在其所在文档中的准确含义,导致释义出错,误导用户的问题。
发明内容
本发明实施例提供一种文本释义方法、装置及存储介质,能根据文本所在的文档的学科领域,进行文本释义,提高文本释义的准确性。
本发明一实施例提供了一种文本释义,包括获得待释义文本以及所述待释义文本所在的文档的学科类型;
根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;其中,所述学科索引库包括学科词汇概念索引库和学科句段索引库;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;
根据相似度匹配结果显示待释义文本对应的释义内容。
进一步地,所述根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配,具体包括:
判断所述待释义文本的文本类型;其中,所述文本类型包括词汇或句段;
若所述待释义文本为词汇,则根据所述待释义文本所在的文档的学科类型,在对应的学科词汇概念索引库中进行词汇语义相似度匹配;
若所述待释义文本为句段,则根据所述待释义文本所在的文档的学科类型,在对应的学科句段索引库中进行余弦文本相似度匹配。
进一步地,通过以下方式识别文档的学科类型:
对待识别文档进行分词处理,获得若干分词;
根据各所述分词词频确定各分词的权重系数,继而根据各所述分词以及各所述分词的权重系数,通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离;
将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。
在上述方法项实施例的基础上,本发明对应提供了装置项实施例:
本发明一实施例提供了一种,文本释义装置包括数据获取模块、相似度匹配模块以及释义内容显示模块;
所述数据获取模块,用于获得待释义文本以及所述待释义文本所在的文档的学科类型;
所述相似度匹配模块,用于根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;
所述释义内容显示模块,用于根据相似度匹配结果显示待释义文本对应的释义内容。
进一步地,所述相似度匹配模块根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配,具体包括:判断所述待释义文本的文本类型;其中,所述文本类型包括词汇或句段;
若所述待释义文本为词汇,则根据所述待释义文本所在的文档的学科类型,在对应的学科词汇概念索引库中进行词汇语义相似度匹配;
若所述待释义文本为句段,则根据所述待释义文本所在的文档的学科类型,在对应的学科句段索引库中进行余弦文本相似度匹配。
进一步地,还包括文档学科类型识别模块;
所述文档学科类型识别模块,用于对待识别文档进行分词处理,获得若干分词;根据各所述分词词频确定各分词的权重系数,继而根据各所述分词以及各所述分词的权重系数,通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离;将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。
在本发明方法项实施例的基础上,对应提供了存储介质项实施例;
本发明一实施例提供了一种存储介质,其中,所述计算机程序运行时控制所述存储介质所在设备实现本发明任意一项所述的文本释义方法。
通过实施本发明实施例具有如下有益效果:
本发明实施例提供了一种文本释义方法、装置及存储介质,所述方法在获取待释义文本时,同时获取待释义文本所在的文档的学科类型,然后根据学科类型在对应的学科索引中进行相似度匹配,从而得到对应学科下的匹配结果,最后根据匹配结果得到对应的释义内容进行显示。相比与现有技术,本发明在进行文本释义时,是基于文本所在的文档的学科类型,然后在对应的学科索引库中,查找释义内容,这样得到的示意内容都是基于对应学科下的释义内容,从而避免因一词多意的问题而导致释义内容不准确的问题,提高了文本释义的准确性。
附图说明
图1是本发明一实施例提供的一种文本释义方法的流程示意图。
图2是本发明一实施例提供的一种文本释义装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供了一种文本释义方法包括:
步骤S101:获得待释义文本以及所述待释义文本所在的文档的学科类型;
步骤S102:根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;其中,所述学科索引库包括学科词汇概念索引库和学科句段索引库;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;
步骤S103:根据相似度匹配结果显示待释义文本对应的释义内容。
对于步骤S101、上述待释义文本包括词汇或句段;当用户在阅读过程中选定一文本,作为需要释义的文本时;获取到用户所选定的文本即上述待释义文本,与此同时获取待释义文本所在文档的学科类型;
优选的,文档的学科类型可以是在文档上传至系统时,用户根据自己对文档内容的认知,选择对应的学科标签,完成文档的学科类型的分类;例如,假设用户在阅读之前上传了一本有关法律的书籍或文档,那么在上传之后,可以选择“法律”这一标签,实现对所上传的书籍或文档的学科类型的分类。若后续用户在阅读该书籍或文档时,选择对应的文本内容,进行释义查询时,系统会获取用户所选定的文本内容,并获取“法律”这一学科类型信息。
而在另一个优先的是实施例中,也可实现对文档的学科类型进行自动化识别,具体方式如下:
对待识别文档进行分词处理,获得若干分词;根据各所述分词词频确定各分词的权重系数,继而根据各所述分词以及各所述分词的权重系数,通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离;将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。
在上述方式执行之前,需要预先设定每个学科类型对应的几篇文档或书籍,可通过人为分类的形式,提前在各个学科类型下存储若干文档或书籍,将这些文档作为上述已知学科分类文档。一旦有新的文档上传时即可按上述方法,对新的文档进行学科类型的自动化分类。
对于步骤S102、上述学科索引库包括学科词汇概念索引库和学科句段索引库;学科词汇概念索引库中存储有若干在对应学科下的词汇释义;例如一个医学的词汇概念索引库中会存储有若干医学词汇及对应的释义内容。例如:医学词汇:门静脉;释义内容:指的是肝门静脉和垂体门静脉。肝门静脉由脾静脉(肠系膜下静脉注入脾静脉)、肠系膜上静脉汇合而成,回收来自腹腔脏器的血液;
而学科句段索引库存储有若干在对应学科下的文档信息;例如一个医学句段索引库中会存储有若干医学文档,例如医学期刊、书籍、报告;更具体的例如:《医学免疫学》、《病理学》等等。
在一个优选的实施例中,所述根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配,具体包括:
判断所述待释义文本的文本类型;其中,所述文本类型包括词汇或句段;
若所述待释义文本为词汇,则根据所述待释义文本所在的文档的学科类型,在对应的学科词汇概念索引库中进行词汇语义相似度匹配;
若所述待释义文本为句段,则根据所述待释义文本所在的文档的学科类型,在对应的学科句段索引库中进行余弦文本相似度匹配。
在进行文本释义的时候,首先要进行文本类型的判断,判断所选定的文本是词汇还是句段,具体的对选定的文本内容进行分词,如果分词只有一个词,直接判别为词汇;如果分词是多个词,那么则需要在对应的学科词汇概念索引库进行匹配,如果所有被分出的所有词都能命中,也将识别词汇;否则将选定的文本识别为句段:例如:如果选定的文本是“中国”,那么分词是1个词,那么就是一个词汇,如果选定的文本是“5G套餐”,分词是“5G”“套餐”,那么在对应的学科词汇概念索引库去匹配,如果能匹配到“5G”“套餐”这两个词,那么就是一个词汇,否则判定为句段。
在完成待释义文本类型的判断之后,如果是词汇,则在对应学科类型的学科词汇概念索引库中进行词汇语义相似度匹配,将相似度最高的词汇的释义内容作为待释义文本的释义内容;当然在其他实施例中也可以将相似度前几位(例如是前3位)的词汇的释义内容作为待释义文本的释义内容;具体的,假设待释义文本为“病毒”,如果待释义文本所在的文档的学科类型为医学,那么会在医学词汇概念索引库中进行词汇语义相似度匹配,例如在医学词汇概念索引库匹配到了“病毒”这个词汇,其释义为:“一种个体微小,结构简单,只含一种核酸(DNA或RNA),必须在活细胞内寄生并以复制方式增殖的非细胞型生物”则将这一内容作为待释义文本对应释义内容。如果待释义文本所在的文档的学科类型为计算机学科,那么会在计算机学科词汇概念索引库中进行词汇语义相似度匹配,例如在医学词汇概念索引库匹配到了“病毒”这个词汇,其释义为:“编制者在计算机程序中插入的破坏计算机功能或者数据的代码,能影响计算机使用,能自我复制的一组计算机指令或者程序代码”则将这一内容作为待释义文本的释义内容。
如果是句段,则在对应学科类型的学科句段索引库中进行余弦文本相似度度匹配,将相似度最高文本内容,作为待释义句段对应的释义内容;当然在其他实施例中也可以将文本相似度前几位(例如是前3位)的文本内容作为待释义文本的释义内容;需要说明的是若选定的文本是句段,在本发明中通过对应学科类型的学科句段索引库中存储的文本信息(书籍,期刊等),匹配相似度符合要求的文本内容,作为释义内容。
对于步骤S103、根据上述步骤S102所提及的匹配方法,将匹配得到的内容,作为待释义文本对应的释义内容,然后进行显示。
在上述方法项实施例的基础上,本发明对应提供了装置项实施例:
如图2所示,本发明一实施例提供了一种文本释义装置,包括数据获取模块、相似度匹配模块以及释义内容显示模块;
所述数据获取模块,用于获得待释义文本以及所述待释义文本所在的文档的学科类型;
所述相似度匹配模块,用于根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;其中,所述学科索引库包括学科词汇概念索引库和学科句段索引库;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;
所述释义内容显示模块,用于根据相似度匹配结果显示待释义文本对应的释义内容。
在一个优选的实施例中,所述相似度匹配模块根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配,具体包括:判断所述待释义文本的文本类型;其中,所述文本类型包括词汇或句段;
若所述待释义文本为词汇,则根据所述待释义文本所在的文档的学科类型,在对应的学科词汇概念索引库中进行词汇语义相似度匹配;
若所述待释义文本为句段,则根据所述待释义文本所在的文档的学科类型,在对应的学科句段索引库中进行余弦文本相似度匹配。
在一个选的实施例中,还包括文档学科类型识别模块;
所述文档学科类型识别模块,用于对待识别文档进行分词处理,获得若干分词;根据各所述分词词频确定各分词的权重系数,继而根据各所述分词以及各所述分词的权重系数,通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离;将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。
需要说明的是,上述装置项实施例是与本发明方法项实施例相对应的,其能够实现本发明任意一项方法项实施例所述的文本释义方法。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在本发明方法项实施例的基础上,对应提供了存储介质项实施例;
本发明另一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备实现本发明任意一项所述的文本释义方法。
上述存储介质为计算机可读存储介质,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种文本释义方法,其特征在于,包括:
获得待释义文本以及所述待释义文本所在的文档的学科类型;
根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;其中,所述学科索引库包括学科词汇概念索引库和学科句段索引库;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;
根据相似度匹配结果显示待释义文本对应的释义内容。
2.如权利要求1所述的种文本释义方法,所述根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配,具体包括:
判断所述待释义文本的文本类型;其中,所述文本类型包括词汇或句段;
若所述待释义文本为词汇,则根据所述待释义文本所在的文档的学科类型,在对应的学科词汇概念索引库中进行词汇语义相似度匹配;
若所述待释义文本为句段,则根据所述待释义文本所在的文档的学科类型,在对应的学科句段索引库中进行余弦文本相似度匹配。
3.如权利要求1所述的种文本释义方法,其特征在于,通过以下方式识别文档的学科类型:
对待识别文档进行分词处理,获得若干分词;
根据各所述分词词频确定各分词的权重系数,继而根据各所述分词以及各所述分词的权重系数,通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离;
将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。
4.一种文本释义装置,其特征在于,包括数据获取模块、相似度匹配模块以及释义内容显示模块;
所述数据获取模块,用于获得待释义文本以及所述待释义文本所在的文档的学科类型;
所述相似度匹配模块,用于根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配;其中,所述学科索引库包括学科词汇概念索引库和学科句段索引库;所述学科词汇概念索引库中存储有若干在对应学科下的词汇释义;所述学科句段索引库存储有若干在对应学科下的文档信息;
所述释义内容显示模块,用于根据相似度匹配结果显示待释义文本对应的释义内容。
5.如权利要求4所示的文本释义装置,其特征在于,所述相似度匹配模块根据所述待释义文本所在的文档的学科类型,在对应的学科索引库中进行相似度匹配,具体包括:判断所述待释义文本的文本类型;其中,所述文本类型包括词汇或句段;
若所述待释义文本为词汇,则根据所述待释义文本所在的文档的学科类型,在对应的学科词汇概念索引库中进行词汇语义相似度匹配;
若所述待释义文本为句段,则根据所述待释义文本所在的文档的学科类型,在对应的学科句段索引库中进行余弦文本相似度匹配。
6.如权利要求4所示的文本释义装置,其特征在于,还包括文档学科类型识别模块;
所述文档学科类型识别模块,用于对待识别文档进行分词处理,获得若干分词;根据各所述分词词频确定各分词的权重系数,继而根据各所述分词以及各所述分词的权重系数,通过KNN算法计算所述待识别文档与已知学科分类文档的相似距离;将相似度最高的已知学科分类文档的学科类型作为所述待识别文档的学科类型。
7.一种存储介质,所述存储介质包括存储的计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备实现如权利要求1-3任意一项所述的文本释义方法。
CN202010910219.0A 2020-09-02 2020-09-02 一种文本释义方法、装置及存储介质 Active CN112052334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010910219.0A CN112052334B (zh) 2020-09-02 2020-09-02 一种文本释义方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010910219.0A CN112052334B (zh) 2020-09-02 2020-09-02 一种文本释义方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112052334A true CN112052334A (zh) 2020-12-08
CN112052334B CN112052334B (zh) 2024-04-05

Family

ID=73606792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010910219.0A Active CN112052334B (zh) 2020-09-02 2020-09-02 一种文本释义方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112052334B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678280A (zh) * 2013-12-30 2014-03-26 武汉传神信息技术有限公司 翻译任务碎片化的方法
CN106484139A (zh) * 2016-10-19 2017-03-08 北京新美互通科技有限公司 表情符号推荐方法及装置
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
US20180232347A1 (en) * 2017-02-16 2018-08-16 International Business Machines Corporation Paraphrasing text in a webpage
CN109033272A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种基于概念的知识自动关联方法及装置
US20180373700A1 (en) * 2015-11-25 2018-12-27 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
US10621499B1 (en) * 2015-08-03 2020-04-14 Marca Research & Development International, Llc Systems and methods for semantic understanding of digital information
JP2020064484A (ja) * 2018-10-18 2020-04-23 日本電信電話株式会社 技術名・サービス名生成装置とその方法
CN111274389A (zh) * 2020-01-14 2020-06-12 北京松果电子有限公司 一种信息处理方法、装置、计算机设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678280A (zh) * 2013-12-30 2014-03-26 武汉传神信息技术有限公司 翻译任务碎片化的方法
US10621499B1 (en) * 2015-08-03 2020-04-14 Marca Research & Development International, Llc Systems and methods for semantic understanding of digital information
US20180373700A1 (en) * 2015-11-25 2018-12-27 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
CN106484139A (zh) * 2016-10-19 2017-03-08 北京新美互通科技有限公司 表情符号推荐方法及装置
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
US20180232347A1 (en) * 2017-02-16 2018-08-16 International Business Machines Corporation Paraphrasing text in a webpage
CN109033272A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种基于概念的知识自动关联方法及装置
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
JP2020064484A (ja) * 2018-10-18 2020-04-23 日本電信電話株式会社 技術名・サービス名生成装置とその方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN111274389A (zh) * 2020-01-14 2020-06-12 北京松果电子有限公司 一种信息处理方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈白雪;常春;王刘安;: "基于术语释义分析获取叙词表词间关系", 图书情报工作, no. 10, 20 May 2017 (2017-05-20) *

Also Published As

Publication number Publication date
CN112052334B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
US20150293978A1 (en) Interactive searching and recommanding method and apparatus
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
US20210103622A1 (en) Information search method, device, apparatus and computer-readable medium
CN111949802A (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN109783693B (zh) 一种视频语义和知识点的确定方法及系统
CN104156454A (zh) 搜索词的纠错方法和装置
CN109284367B (zh) 用于处理文本的方法和装置
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
CN115599888A (zh) 融合领域知识图谱的汉越跨境民族文本检索方法及装置
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
CN110598217B (zh) 一种点读内容的识别方法、装置、家教机及存储介质
CN110008314B (zh) 一种意图解析方法及装置
CN112052334B (zh) 一种文本释义方法、装置及存储介质
CN111935552A (zh) 信息标注方法、装置、设备及介质
CN114492310B (zh) 文本标注方法、文本标注装置、电子设备和存储介质
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
CN112686042A (zh) 基于主题驱动的专利推荐方法、系统、设备及存储介质
CN112115237A (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN114077834A (zh) 确定相似文本的方法、装置以及存储介质
CN115293158B (zh) 基于标签辅助的消歧方法及装置
CN115687580B (zh) 搜索提醒补全的生成和重排序方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant