CN112784594B - 一种文档处理方法、装置、电子设备及可读存储介质 - Google Patents

一种文档处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112784594B
CN112784594B CN202010505526.0A CN202010505526A CN112784594B CN 112784594 B CN112784594 B CN 112784594B CN 202010505526 A CN202010505526 A CN 202010505526A CN 112784594 B CN112784594 B CN 112784594B
Authority
CN
China
Prior art keywords
document page
proper nouns
document
contained
proper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010505526.0A
Other languages
English (en)
Other versions
CN112784594A (zh
Inventor
冷志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202010505526.0A priority Critical patent/CN112784594B/zh
Publication of CN112784594A publication Critical patent/CN112784594A/zh
Application granted granted Critical
Publication of CN112784594B publication Critical patent/CN112784594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文档处理方法、装置、电子设备及可读存储介质。该方法应用于电子设备,包括:确定所展示的文档页面;确定文档页面所包含的专有名词;其中,专有名词是基于预先构建的识别模型对文档页面进行识别后得到的;获得文档页面所包含的专有名词的解释;在文档页面动态显示专有名词的解释。应用本发明实施例提供的文档处理方案,可以对所展示的文档页面进行处理,从而可以在该文档页面中显示专有名词所对应的解释。

Description

一种文档处理方法、装置、电子设备及可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种文档处理方法、装置、电子设备及可读存储介质。
背景技术
目前,为了工作和学习,用户常常需要阅读各种各样的文档。例如,常常需要阅读word文档、PDF(Portable Document Format,便携式文档格式)文档和PPT(PowerPoint,演示文稿)文档等文档。
这些文档中常常会涉及许多专有名词,其中专有名词是指特定的或独一无二的人或物等。例如高斯定理和隐马尔可夫模型均为专有名词。当用户想要了解这些专有名词所对应的解释时,用户需要从网上查找该专有名词的相关内容,进而可以从相关内容中得到该专有名词所对应的解释。但是,查找专有名词所对应的解释会耗费用户较多的时间和精力,影响了用户的阅读体验。
发明内容
本发明实施例的目的在于提供一种文档处理方法、装置、电子设备及可读存储介质,以可以对文档进行处理,从而可以在文档中显示专有名词所对应的解释。具体技术方案如下:
第一方面,本发明实施例提供了一种文档处理方法,应用于电子设备,该方法可以包括:
确定所展示的文档页面;
确定文档页面所包含的专有名词;其中,专有名词是基于预先构建的识别模型对文档页面进行识别后得到的;
获得文档页面所包含的专有名词的解释;
在文档页面动态显示专有名词的解释。
可选地,在确定文档页面所包含的专有名词的步骤之前,还可以包括:
判断文档页面的展示时间是否超过预设阈值;
若是,触发确定文档页面所包含的专有名词的步骤。
可选地,确定文档页面所包含的专有名词的步骤,可以包括:
将文档页面输入至预先构建的识别模型,得到文档页面所包含的专有名词的解释;其中,识别模型用于识别文档页面中的词汇并识别词汇中的专有名词。
可选地,确定文档页面所包含的专有名词的步骤,可以包括:
将文档页面发送给服务器,以使服务器基于识别模型识别文档页面中的词汇,识别并输出词汇中的专有名词;
接收服务器发送的专有名词。
可选地,当文档页面为图片类型的文档页面时,识别模型具体用于提取文档页面中所包含的文字、识别文字中的词汇,并识别词汇中的专有名词。
可选地,获得文档页面所包含的专有名词的解释的步骤,可以包括:
查找预设词条库中与专有名词相匹配的词条名;
获得词条库中与词条名所对应的解释。
可选地,在确定文档页面所包含的专有名词的步骤之前,还可以包括:
获得预设的文档页面和预设的文档页面中记录的目标专有名词;
利用神经网络算法对训练样本进行训练,得到识别模型;其中,一个训练样本中包括:一个预设的文档页面以及该预设的文档页面中所记录的目标专有名词。
第二方面,本发明实施例还提供了一种文档处理装置,应用于电子设备,包括:
第一确定模块,用于确定所展示的文档页面;
第二确定模块,用于确定文档页面所包含的专有名词;其中,专有名词是基于预先构建的识别模型对文档页面进行识别后得到的;
第一获得模块,用于获得文档页面所包含的专有名词的解释;
显示模块,用于在文档页面动态显示专有名词的解释。
可选地,在本发明实施例中,该装置还可以包括:
判断模块,用于在确定文档页面所包含的专有名词之前,判断文档页面的展示时间是否超过预设阈值;
触发模块,用于在文档页面的展示时间超过预设阈值时,触发第二确定模块。
可选地,在本发明的一个实施例中,第二确定模块具体用于:
将文档页面输入至预先构建的识别模型,得到文档页面所包含的专有名词的解释;其中,识别模型用于识别文档页面中的词汇并识别词汇中的专有名词。
可选地,在本发明的另一个实施例中,第二确定模块具体用于:
将文档页面发送给服务器,以使服务器基于识别模型识别文档页面中的词汇,识别并输出词汇中的专有名词;
接收服务器发送的专有名词。
可选地,在本发明实施例中,当文档页面为图片类型的文档页面时,识别模型具体用于提取文档页面中所包含的文字、识别文字中的词汇,并识别词汇中的专有名词。
可选地,在本发明实施例中,第一获得模块具体用于:
查找预设词条库中与专有名词相匹配的词条名;
获得词条库中与词条名所对应的解释。
可选地,在本发明实施例中,该装置还可以包括:
第二获得模块,用于在确定文档页面所包含的专有名词之前,获得预设的文档页面和预设的文档页面中记录的目标专有名词;
训练模块,用于利用神经网络算法对训练样本进行训练,得到识别模型;其中,一个训练样本中包括:一个预设的文档页面以及该预设的文档页面中所记录的目标专有名词。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项文档处理方法的方法步骤。
第四方面,本发明实施例还提供了一种可读存储介质,可读存储介质为电子设备中的可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一项文档处理方法的方法步骤。
第五方面,本发明实施例还提供了一种计算机程序产品,当其在电子设备上运行时,使得电子设备执行:上述任一项文档处理方法的方法步骤。
在本发明实施例中,电子设备可以确定所展示的文档页面,并可以确定该文档页面所包含的专有名词。其中,该专有名词是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以获得该专有名词的解释,并在文档页面动态显示该专有名词的解释。这样,可以识别出所展示的文档页面中的专有名词,并可以在文档中显示专有名词所对应的解释。这样,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文档处理方法的流程图;
图2为本发明实施例提供的一种文档处理装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的问题,本发明实施例提供了一种文档处理方法、装置、电子设备及可读存储介质。
下面首先对本发明实施例提供的文档处理方法进行说明。
本发明实施例提供的文档处理方法应用于电子设备,该电子设备中可以安装有文档阅读软件,用户可以通过该文档阅读软件来阅读文档。其中,本发明实施例中的电子设备包括但并不局限于电脑和智能手机。
该文档阅读软件包括但并不局限于:PDF(Portable Document Format,便携式文档格式)文档阅读软件、word文档阅读软件、PPT(PowerPoint,演示文稿)文档阅读软件和WPS(WPS software,WPS软件)文档阅读软件。
参见图1,本发明实施例提供的文档处理方法可以包括如下步骤:
S101:确定所展示的文档页面;
假设用户通过文档阅读软件打开了一篇技术文档,那么,电子设备可以检测到该技术文档当前所展示的文档页面。例如,检测到所展示的文档页面为该技术文档的第25页。
另外,发明人在实现本发明的过程中发现,当用户对文档页面的内容理解有难度时,用户常常会在该文档页面停留较长时间。为了便于用户理解文档页面的内容,电子设备可以先判断文档页面的展示时间是否超过预设阈值。若超过预设阈值,则可以触发步骤S102执行确定该文档页面所包含的专有名词的操作,进而可以获得该文档页面中专有名词的解释。其中,该预设阈值可以为10分钟,当然并不局限于此。
反之,若未超过预设阈值,则表明用户对该文档页面的内容理解不存在难度。此时,可以不触发步骤S102。
S102:确定文档页面所包含的专有名词;其中,专有名词是基于预先构建的识别模型对文档页面进行识别后得到的;
可以理解的是,在一种实现方式中,电子设备可以将文档页面输入至预先构建的识别模型,从而得到该文档页面所包含的专有名词。其中,该识别模型用于:识别文档页面中的词汇并识别该词汇中的专有名词。举例而言,可以识别出专有名词:高斯定理。这样,电子设备可以在本地识别文档页面所包含的专有名词,减轻了网络交互压力。
在另一种实现方式中,电子设备可以将文档页面发送给服务器。然后,服务器可以基于识别模型识别文档页面中的词汇,识别并输出词汇中的专有名词。这样,可以通过服务器来识别专有名词,减轻了电子设备的数据处理压力。
然后,服务器可以将该专有名词发送给电子设备。当然,服务器也可以在查找到该专有名词对应的解释后,再将该专有名词以及专有名词的解释发送给电子设备,这也是合理的。
另外,在确定文档页面所包含的专有名词之前,电子设备或服务器还可以构建识别模型。其中,构建识别模型的步骤可以包括:获得预设的文档页面和预设的文档页面中记录的目标专有名词。然后,利用神经网络算法对训练样本进行训练,得到识别模型。其中,一个训练样本中包括:一个预设的文档页面以及该预设的文档页面中所记录的目标专有名词。其中,该神经网络算法可以为人工神经网络汉字识别算法。
其中,识别模型属于AI(Artificial Intelligence,人工智能)模型,这样,可以在用户阅读文档的过程中通过AI模型识别出该文档中的专有名词。
可以理解的是,当文档页面为图片类型的文档页面时,识别模型还可以提取文档页面中所包含的文字。然后识别该文字中的各个词汇,并可以识别词汇中的专有名词。例如,对于PDF文档中图片类型的文档页面,识别模型可以通过OCR(Optical CharacterRecognition,光学字符识别)方式来识别该文档页面中所包含的文字,然后可以通过Word2vec(Word to vector,词到向量)算法对文字进行分词,得到文中所包含的词汇。
另外,电子设备可以在预设词条库中查找是否有与该词汇相匹配的词条名。若存在,则可以将与词条名匹配的词汇确定为专有名词。
其中,预设的词条库可以是技术人员预先构建的、用于进行专有名词识别的词条库。当然,该预设的词条库也可以为搜索引擎的词条库,例如百度词条库,当然并不局限于此。
S103:获得文档页面所包含的专有名词的解释;
可以理解的是,该文档页面所包含的专有名词的解释可以是电子设备查找得到的。当然,该文档页面所包含的专有名词的解释还可以是服务器发送给该电子设备的,这都是合理的。
其中,电子设备或服务器在获得文档页面所包含的专有名词之后,可以将查找预设词条库中与专有名词相匹配的词条名。然后,可以获得词条库中与词条名所对应的解释。
S104:在文档页面动态显示专有名词的解释。
其中,电子设备在获得该文档页面中的专有名词的解释之后,可以确定该文档页面中的专有名词的位置。然后,可以文档页面的空白处显示该专有名词所对应的悬浮框。该悬浮框中显示有该专有名词所对应的解释。这样,可以在用户阅读文档的过程中,展示文档中的专有名词所对应的解释,便于用户理解该文档页面的内容。并且,使用户不需要手动查找专有名词所对应的解释,提高了用户的阅读效率。
其中,该悬浮框可以由上往下、由下往上、由左至右或由右至左移动,从而实现动态展示的效果。另外,可以理解的是,该文档页面还可以展示该悬浮框与该专有名词的关联线条或者标识,当然并不局限于此。
在本发明实施例中,电子设备可以确定所展示的文档页面,并可以确定该文档页面所包含的专有名词。其中,该专有名词是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以获得该专有名词的解释,并在文档页面动态显示该专有名词的解释。这样,可以识别出所展示的文档页面中的专有名词,并可以在文档中显示专有名词所对应的解释。这样,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
综上,应用本发明实施例提供的文档处理方法,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
相应于上述方法实施例,本发明实施例还提供了一种文档处理装置,应用于电子设备,参见图2,可以包括:
第一确定模块201,用于确定所展示的文档页面;
第二确定模块202,用于确定文档页面所包含的专有名词;其中,专有名词是基于预先构建的识别模型对文档页面进行识别后得到的;
第一获得模块203,用于获得文档页面所包含的专有名词的解释;
显示模块204,用于在文档页面动态显示专有名词的解释。
应用本发明实施例提供的装置,电子设备可以确定所展示的文档页面,并可以确定该文档页面所包含的专有名词。其中,该专有名词是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以获得该专有名词的解释,并在文档页面动态显示该专有名词的解释。这样,可以识别出所展示的文档页面中的专有名词,并可以在文档中显示专有名词所对应的解释。这样,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
可选地,在本发明实施例中,该装置还可以包括:
判断模块,用于在确定文档页面所包含的专有名词之前,判断文档页面的展示时间是否超过预设阈值;
触发模块,用于在文档页面的展示时间超过预设阈值时,触发第二确定模块202。
可选地,在本发明的一个实施例中,第二确定模块202具体用于:
将文档页面输入至预先构建的识别模型,得到文档页面所包含的专有名词的解释;其中,识别模型用于识别文档页面中的词汇并识别词汇中的专有名词。
可选地,在本发明的另一个实施例中,第二确定模块202具体用于:
将文档页面发送给服务器,以使服务器基于识别模型识别文档页面中的词汇,识别并输出词汇中的专有名词;
接收服务器发送的专有名词。
可选地,在本发明实施例中,当文档页面为图片类型的文档页面时,识别模型具体用于提取文档页面中所包含的文字、识别文字中的词汇,并识别词汇中的专有名词。
可选地,在本发明实施例中,第一获得模块203具体用于:
查找预设词条库中与专有名词相匹配的词条名;
获得词条库中与词条名所对应的解释。
可选地,在本发明实施例中,该装置还可以包括:
第二获得模块,用于在确定文档页面所包含的专有名词之前,获得预设的文档页面和预设的文档页面中记录的目标专有名词;
训练模块,用于利用神经网络算法对训练样本进行训练,得到识别模型;其中,一个训练样本中包括:一个预设的文档页面以及该预设的文档页面中所记录的目标专有名词。
相应于上述方法实施例,本发明实施例还提供了一种电子设备,参见图3,该电子设备包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
存储器303,用于存放计算机程序;
处理器301,用于执行存储器上所存放的程序时,实现上述任一项文档处理方法实施例提供的方法步骤。
在本发明实施例中,电子设备可以确定所展示的文档页面,并可以确定该文档页面所包含的专有名词。其中,该专有名词是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以获得该专有名词的解释,并在文档页面动态显示该专有名词的解释。这样,可以识别出所展示的文档页面中的专有名词,并可以在文档中显示专有名词所对应的解释。这样,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
相应于上述方法实施例,本发明实施例还提供了一种可读存储介质,可读存储介质为电子设备中的可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一项文档处理方法实施例提供的方法步骤。
本发明实施例提供的可读存储介质中存储的计算机程序被电子设备的处理器执行后,电子设备可以确定所展示的文档页面,并可以确定该文档页面所包含的专有名词。其中,该专有名词是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以获得该专有名词的解释,并在文档页面动态显示该专有名词的解释。这样,可以识别出所展示的文档页面中的专有名词,并可以在文档中显示专有名词所对应的解释。这样,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
相应于上述方法实施例,本发明实施例还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述实施例中任一项文档处理方法实施例提供的方法步骤。
本发明实施例提供的计算机程序被电子设备的处理器执行后,电子设备可以确定所展示的文档页面,并可以确定该文档页面所包含的专有名词。其中,该专有名词是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以获得该专有名词的解释,并在文档页面动态显示该专有名词的解释。这样,可以识别出所展示的文档页面中的专有名词,并可以在文档中显示专有名词所对应的解释。这样,可以在用户阅读文档的过程中显示所展示的文档页面中专有名词的解释,使用户不需要手动查找专有名词的解释,提高了用户的文档阅读体验。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、可读存储介质和应用程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (7)

1.一种文档处理方法,其特征在于,应用于电子设备,所述方法包括:
确定所展示的文档页面;
确定所述文档页面所包含的专有名词;其中,所述专有名词是基于预先构建的识别模型对所述文档页面进行识别后得到的;
获得所述文档页面所包含的专有名词的解释;
在所述文档页面的空白处显示所述专有名词所对应的悬浮框;其中,所述悬浮框中显示有所述专有名词的解释;所述悬浮框按照由上往下、由下往上、由左至右或由右至左移动中的任一方式进行动态展示;
当所述文档页面为图片类型的文档页面时,所述识别模型具体用于通过光学字符识别的方式提取所述文档页面中所包含的文字、再通过词到向量算法对所述文字进行分词,得到所述文字中所包含的词汇,并识别所述词汇中的专有名词;
在所述确定所述文档页面所包含的专有名词的步骤之前,还包括:
获得预设的文档页面和所述预设的文档页面中记录的目标专有名词;
利用神经网络算法对训练样本进行训练,得到所述识别模型;其中,一个训练样本中包括:一个预设的文档页面以及该预设的文档页面中所记录的目标专有名词;
在所述确定所述文档页面所包含的专有名词的步骤之前,还包括:
判断所述文档页面的展示时间是否超过预设阈值;
若是,触发所述确定所述文档页面所包含的专有名词的步骤。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文档页面所包含的专有名词的步骤,包括:
将所述文档页面输入至预先构建的识别模型,得到所述文档页面所包含的专有名词的解释;其中,所述识别模型用于识别所述文档页面中的词汇并识别所述词汇中的专有名词。
3.根据权利要求1所述的方法,其特征在于,所述确定所述文档页面所包含的专有名词的步骤,包括:
将所述文档页面发送给服务器,以使所述服务器基于所述识别模型识别所述文档页面中的词汇,识别并输出所述词汇中的专有名词;
接收所述服务器发送的所述专有名词。
4.根据权利要求1所述的方法,其特征在于,所述获得所述文档页面所包含的专有名词的解释的步骤,包括:
查找预设词条库中与所述专有名词相匹配的词条名;
获得所述词条库中与所述词条名所对应的解释。
5.一种文档处理装置,其特征在于,应用于电子设备,包括:
第一确定模块,用于确定所展示的文档页面;
第二确定模块,用于确定所述文档页面所包含的专有名词;其中,所述专有名词是基于预先构建的识别模型对所述文档页面进行识别后得到的;
第一获得模块,用于获得所述文档页面所包含的专有名词的解释;
显示模块,用于在所述文档页面的空白处显示所述专有名词所对应的悬浮框;
其中,所述悬浮框中显示有所述专有名词的解释;所述悬浮框按照由上往下、由下往上、由左至右或由右至左移动中的任一方式进行动态展示;
当所述文档页面为图片类型的文档页面时,所述识别模型具体用于通过光学字符识别的方式提取所述文档页面中所包含的文字、再通过词到向量算法对所述文字进行分词,得到所述文字中所包含的词汇,并识别所述词汇中的专有名词;
所述装置还包括:第二获得模块,用于在确定文档页面所包含的专有名词之前,获得预设的文档页面和所述预设的文档页面中记录的目标专有名词;
训练模块,用于利用神经网络算法对训练样本进行训练,得到所述识别模型;其中,一个训练样本中包括:一个预设的文档页面以及该预设的文档页面中所记录的目标专有名词;
判断模块,用于在确定所述文档页面所包含的专有名词之前,判断所述文档页面的展示时间是否超过预设阈值;
触发模块,用于在所述文档页面的展示时间超过预设阈值时,触发所述第二确定模块。
6.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4中任一所述的方法步骤。
7.一种可读存储介质,其特征在于,所述可读存储介质为电子设备中的可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被所述电子设备的处理器执行时实现权利要求1-4中任一所述的方法步骤。
CN202010505526.0A 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质 Active CN112784594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010505526.0A CN112784594B (zh) 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010505526.0A CN112784594B (zh) 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112784594A CN112784594A (zh) 2021-05-11
CN112784594B true CN112784594B (zh) 2023-05-26

Family

ID=75749267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010505526.0A Active CN112784594B (zh) 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112784594B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609365A (zh) * 2021-08-11 2021-11-05 陕西中医药大学 一种中医古籍数据收集整理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004762A (zh) * 2007-01-10 2007-07-25 张百川 一种动态多维互联网网页系统
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN110569370A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111079432A (zh) * 2019-11-08 2020-04-28 泰康保险集团股份有限公司 文本检测方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004762A (zh) * 2007-01-10 2007-07-25 张百川 一种动态多维互联网网页系统
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN110569370A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111079432A (zh) * 2019-11-08 2020-04-28 泰康保险集团股份有限公司 文本检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112784594A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108874776B (zh) 一种垃圾文本的识别方法及装置
US11195006B2 (en) Multi-modal document feature extraction
CN109344406B (zh) 词性标注方法、装置和电子设备
US20200004815A1 (en) Text entity detection and recognition from images
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
US20160306783A1 (en) Method and apparatus for phonetically annotating text
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN110222168B (zh) 一种数据处理的方法及相关装置
CN110298041B (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN112784594B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN110750983A (zh) 语料识别方法、装置、设备及计算机可读存储介质
CN109062891B (zh) 媒体处理方法、装置、终端和介质
US20220058214A1 (en) Document information extraction method, storage medium and terminal
CN112464927B (zh) 一种信息提取方法、装置及系统
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN111046627A (zh) 一种中文文字显示方法及系统
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN110363189B (zh) 一种文档内容修复方法、装置、电子设备及可读存储介质
CN111552783A (zh) 内容分析查询方法、装置、设备和计算机存储介质
CN112784593B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN108304540B (zh) 一种文本数据识别方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant