CN112784593B - 一种文档处理方法、装置、电子设备及可读存储介质 - Google Patents

一种文档处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112784593B
CN112784593B CN202010504847.9A CN202010504847A CN112784593B CN 112784593 B CN112784593 B CN 112784593B CN 202010504847 A CN202010504847 A CN 202010504847A CN 112784593 B CN112784593 B CN 112784593B
Authority
CN
China
Prior art keywords
target
document page
noun
determining
target noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010504847.9A
Other languages
English (en)
Other versions
CN112784593A (zh
Inventor
冷志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202010504847.9A priority Critical patent/CN112784593B/zh
Publication of CN112784593A publication Critical patent/CN112784593A/zh
Application granted granted Critical
Publication of CN112784593B publication Critical patent/CN112784593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文档处理方法、装置、电子设备及可读存储介质。该方法应用于电子设备,包括:确定所展示的文档页面;确定文档页面所包含的目标名词和目标名词所对应的词类型;其中,目标名词和词类型是基于预先构建的识别模型对文档页面进行识别后得到的;在文档页面标记目标名词的词类型。应用本发明实施例提供的文档处理方法,可以确定文档中所包含的目标名词和该目标名词所属的词类型,便于用户了解该目标名词的词类型,从而提高用户的阅读体验。

Description

一种文档处理方法、装置、电子设备及可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种文档处理方法、装置、电子设备及可读存储介质。
背景技术
目前,为了工作和学习,用户常常需要阅读各种各样的文档。例如,常常需要阅读word文档、PDF(Portable Document Format,便携式文档格式)文档和PPT(PowerPoint,演示文稿)文档等文档。
这些文档中常常会涉及许多用户不熟悉的名词。例如名词“费尔巴赫”。在该种情况下,用户需要从网上查找“费尔巴赫”的相关内容。然后,基于用户查找到的内容和用户对文档的理解来确定该文档中出现的“费尔巴赫”所属的词类型,即确定该文档中的“费尔巴赫”是地名还是数学定理名。
但是,该种方式对用户的理解能力具有较高要求,并且从网上查找“费尔巴赫”的相关内容会耗费用户较多的时间和精力,影响了用户的阅读体验。
发明内容
本发明实施例的目的在于提供一种文档处理方法、装置、电子设备及可读存储介质,以可以确定文档中所包含的名词和该名词所属的词类型,便于用户了解该名词的词类型,从而提高用户的阅读体验。具体技术方案如下:
第一方面,本发明实施例提供了一种文档处理方法,应用于电子设备,该方法可以包括:
确定所展示的文档页面;
确定文档页面所包含的目标名词和目标名词所对应的词类型;其中,目标名词和词类型是基于预先构建的识别模型对文档页面进行识别后得到的;
在文档页面标记目标名词的词类型。
可选地,在确定文档页面所包含的目标名词和目标名词所对应的词类型的步骤之前,还可以包括:
判断文档页面的展示时间是否超过预设阈值;
若是,触发确定文档页面所包含的目标名词和目标名词所对应的词类型的步骤。
可选地,确定文档页面所包含的目标名词和目标名词所对应的词类型的步骤,可以包括:
将文档页面输入至预先构建的识别模型,得到文档页面所包含的目标名词和目标名词所对应的词类型;其中,识别模型用于识别文档页面中的目标名词和目标名词的词类型。
可选地,确定文档页面所包含的目标名词和目标名词所对应的词类型的步骤,可以包括:
将文档页面发送给服务器,以使服务器基于识别模型识别文档页面中的目标名词和目标名词的词类型;
接收服务器发送的目标名词和词类型。
可选地,当文档页面为图片类型的文档页面时,识别模型具体用于:
提取文档页面中所包含的文字;
基于预设的分词算法,确定文字中的词汇;
将与预设词条库中的词条名相匹配的词汇,确定为目标名词;
基于预设的自然语言识别算法,确定目标名词的词类型。
可选地,词类型包括:地名、人名、职业名、数学定理名、化学定理名和物理定理名中的一项或多项。
第二方面,本发明实施例提供了一种文档处理装置,应用于电子设备,该装置可以包括:
第一确定模块,用于确定所展示的文档页面;
第二确定模块,用于确定文档页面所包含的目标名词和目标名词所对应的词类型;其中,目标名词和词类型是基于预先构建的识别模型对文档页面进行识别后得到的;
标记模块,用于在文档页面标记目标名词的词类型。
可选地,在本发明实施例中,还可以包括:
判断模块,用于在确定文档页面所包含的目标名词和目标名词所对应的词类型之前,判断文档页面的展示时间是否超过预设阈值;
触发模块,用于当文档页面的展示时间超过预设阈值时,触发第二确定模块。
可选地,在本发明的一个实施例中,第二确定模块具体用于:
将文档页面输入至预先构建的识别模型,得到文档页面所包含的目标名词和目标名词所对应的词类型;其中,识别模型用于识别文档页面中的目标名词和目标名词的词类型。
可选地,在本发明的另一个实施例中,第二确定模块具体用于:
将文档页面发送给服务器,以使服务器基于识别模型识别文档页面中的目标名词和目标名词的词类型;
接收服务器发送的目标名词和词类型。
可选地,在本发明实施例中,当文档页面为图片类型的文档页面时,识别模型具体可以用于:
提取文档页面中所包含的文字;
基于预设的分词算法,确定文字中的词汇;
将与预设词条库中的词条名相匹配的词汇,确定为目标名词;
基于预设的自然语言识别算法,确定目标名词的词类型。
可选地,在本发明实施例中,词类型可以包括:地名、人名、职业名、数学定理名、化学定理名和物理定理名中的一项或多项。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项文档处理方法的方法步骤。
第四方面,本发明实施例还提供了一种可读存储介质,可读存储介质为电子设备中的可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一项文档处理方法的方法步骤。
第五方面,本发明实施例还提供了一种计算机程序产品,当其在电子设备上运行时,使得电子设备执行:上述任一项文档处理方法的方法步骤。
在本发明实施例中,电子设备可以确定所展示的文档页面,并可以确定文档页面所包含的目标名词和目标名词所对应的词类型。其中,该目标名词和词类型是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以在该文档页面标记该目标名词的词类型。这样,可以确定文档中所包含的目标名词和该目标名词所属的词类型。这样,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文档处理方法的流程图;
图2为本发明实施例提供的一种文档处理装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的问题,本发明实施例提供了一种文档处理方法、装置、电子设备及可读存储介质。
下面首先对本发明实施例提供的文档处理方法进行说明。
本发明实施例提供的文档处理方法应用于电子设备,该电子设备中可以安装有文档阅读软件,用户可以通过该文档阅读软件来阅读文档。其中,本发明实施例中的电子设备包括但并不局限于电脑和智能手机。
该文档阅读软件包括但并不局限于:PDF(Portable Document Format,便携式文档格式)文档阅读软件、word文档阅读软件、PPT(PowerPoint,演示文稿)文档阅读软件和WPS(WPS software,WPS软件)文档阅读软件。
参见图1,本发明实施例提供的文档处理方法可以包括如下步骤:
S101:确定所展示的文档页面;
假设用户通过文档阅读软件打开了一篇技术文档,那么,电子设备可以检测到该技术文档当前所展示的文档页面。例如,检测到所展示的文档页面为该技术文档的第12页。
另外,发明人在实现本发明的过程中发现,当用户对文档页面的内容理解有难度时,用户常常会在该文档页面停留较长时间。为了便于用户理解文档页面的内容,电子设备可以判断文档页面的展示时间是否超过预设阈值。若超过预设阈值,则可以触发步骤S102执行确定该文档页面所包含的目标名词和目标名词所属词类型的操作,进而可以确定该文档页面中目标名词和词类型的解释。其中,该预设阈值可以为5分钟,当然并不局限于此。
反之,若未超过预设阈值,则表明用户对该文档页面的内容理解不存在难度。此时,可以不触发步骤S102。
S102:确定文档页面所包含的目标名词和目标名词所对应的词类型;其中,目标名词和词类型是基于预先构建的识别模型对文档页面进行识别后得到的;
可以理解的是,在一种实现方式中,电子设备可以将文档页面输入至预先构建的识别模型,从而得到该文档页面所包含的目标名词和目标名词所对应的词类型。其中,词类型可以包括:地名、人名、职业名、数学定理名、化学定理名和物理定理名中的一项或多项,当然并不局限于此。
举例而言,电子设备可以将一篇文档输入至预先构建的识别模型。其中,该识别模型存储在该电子设备本地。进而,该识别模型可以输出该文档中所包含的目标名词“费尔巴赫”和“费尔巴赫”所属的词类型:数学定理名。其中,该识别模型可以识别出该文档所属的类别为科学读物,并可以查找到目标名词“费尔巴赫”的词类型为:地名或数学定理名。由于该文档为科学读物,因而可以确定该目标名词所属的词类型为:数学定理名。其中,用户在知道“费尔巴赫”为数学定理名后,可以更好地理解文档内容。并且,电子设备可以在本地识别文档页面所包含的目标名词和目标名词所属的词类型,减轻了网络交互压力。
另外,可以理解的是,识别模型可以将该文档页面所包含的每个名词确定为一个目标名词。当然,该识别模型也可以将该文档页面中与预设词库中的词条名相匹配的词汇,确定为目标名词,这都是合理的。
其中,预设的词条库可以是技术人员预先构建的、用于进行名词识别的词条库。当然,该预设的词条库也可以为搜索引擎的词条库,例如百度词条库,当然并不局限于此。
在另一种实现方式中,电子设备可以将文档页面发送给服务器。然后,服务器可以基于识别模型识别文档页面中的目标名词和该目标名词的词类型,进而可以将该目标名词和词类型发送给电子设备。这样,可以通过服务器来识别专有名词,减轻了电子设备的数据处理压力。
可以理解的是,识别模型在接收到文档页面后,可以判断该文档页面是否为图片类型的文档页面。若是图片类型的文档页面,识别模型可以通过OCR(Optical CharacterRecognition,光学字符识别)算法来识别该文档页面中所包含的文字。然后,可以通过预设的分词算法Word2vec(Word to vector,词到向量)算法对文字进行分词,得到文档页面中所包含的词汇。之后,可以在预设词条库中查找是否存在与该词汇相匹配的词条名。若存在,则可以将与词条名匹配的词汇确定为目标名词。然后,可以查找该预设词条中该目标名词所对应的解释,之后可以根据该解释来确定该目标名词所有可能的词类型,并利用自然语言算法对该文档页面进行语义识别,得到文档页面的语义识别结果。然后可以根据该语音识别结果来确定目标名词的词类型。
可以理解的是,当根据该解释确定的该目标名词所有可能的词类型只有一种(例如地名)时,可以直接得到该目标名词的词类型。
S103:在文档页面标记目标名词的词类型。
其中,电子设备在获得该文档页面中的目标名词和词类型之后,可以确定该文档页面中的目标名词的位置。然后,可以给该目标名词标记词类型。例如,可以在目标名词“费尔巴赫”的右上角标注:数学定理名词。当然,也可以通过黄色高亮标记来标识目标名词“费尔巴赫”为数学定理名词。其中,黄色高亮标记与数学定理名词具有映射关系。这样,可以确定文档页面中所包含的目标名词和该目标名词所属的词类型,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
当然,电子设备也可以在文档页面的空白处显示悬浮框。其中,该悬浮框中显示有该文档页面中所包含的各个目标名词以及各个名词的词类型。这样,可以集中向用户展示各个目标名词的词类型,使用户不需要手动查找目标名词的词类型,提高了用户的阅读效率。
其中,该悬浮框可以由上往下、由下往上、由左至右或由右至左移动,从而实现动态展示的效果。当然并不局限于此。
在本发明实施例中,电子设备可以确定所展示的文档页面,并可以确定文档页面所包含的目标名词和目标名词所对应的词类型。其中,该目标名词和词类型是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以在该文档页面标记该目标名词的词类型。这样,可以确定文档中所包含的目标名词和该目标名词所属的词类型。这样,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
综上,应用本发明实施例提供的文档处理方法,可以确定文档中所包含的名词和该名词所属的词类型,便于用户了解该名词的词类型,从而提高用户的阅读体验。
相应于上述方法实施例,本发明实施例还提供了一种文档处理装置,应用于电子设备,参见图2,该装置可以包括:
第一确定模块201,用于确定所展示的文档页面;
第二确定模块202,用于确定文档页面所包含的目标名词和目标名词所对应的词类型;其中,目标名词和词类型是基于预先构建的识别模型对文档页面进行识别后得到的;
标记模块203,用于在文档页面标记目标名词的词类型。
应用本发明实施例提供的装置,电子设备可以确定所展示的文档页面,并可以确定文档页面所包含的目标名词和目标名词所对应的词类型。其中,该目标名词和词类型是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以在该文档页面标记该目标名词的词类型。这样,可以确定文档中所包含的目标名词和该目标名词所属的词类型。这样,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
可选地,在本发明实施例中,还可以包括:
判断模块,用于在确定文档页面所包含的目标名词和目标名词所对应的词类型之前,判断文档页面的展示时间是否超过预设阈值;
触发模块,用于当文档页面的展示时间超过预设阈值时,触发第二确定模块202。
可选地,在本发明的一个实施例中,第二确定模块202具体用于:
将文档页面输入至预先构建的识别模型,得到文档页面所包含的目标名词和目标名词所对应的词类型;其中,识别模型用于识别文档页面中的目标名词和目标名词的词类型。
可选地,在本发明的另一个实施例中,第二确定模块202具体用于:
将文档页面发送给服务器,以使服务器基于识别模型识别文档页面中的目标名词和目标名词的词类型;
接收服务器发送的目标名词和词类型。
可选地,在本发明实施例中,当文档页面为图片类型的文档页面时,识别模型具体可以用于:
提取文档页面中所包含的文字;
基于预设的分词算法,确定文字中的词汇;
将与预设词条库中的词条名相匹配的词汇,确定为目标名词;
基于预设的自然语言识别算法,确定目标名词的词类型。
可选地,在本发明实施例中,词类型可以包括:地名、人名、职业名、数学定理名、化学定理名和物理定理名中的一项或多项。
相应于上述方法实施例,本发明实施例还提供了一种电子设备,参见图3,该电子设备包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
存储器303,用于存放计算机程序;
处理器301,用于执行存储器上所存放的程序时,实现上述任一项文档处理方法实施例提供的方法步骤。
在本发明实施例中,电子设备可以确定所展示的文档页面,并可以确定文档页面所包含的目标名词和目标名词所对应的词类型。其中,该目标名词和词类型是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以在该文档页面标记该目标名词的词类型。这样,可以确定文档中所包含的目标名词和该目标名词所属的词类型。这样,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
相应于上述方法实施例,本发明实施例还提供了一种可读存储介质,可读存储介质为电子设备中的可读存储介质,可读存储介质内存储有计算机程序,计算机程序被电子设备的处理器执行时实现上述任一项文档处理方法实施例提供的方法步骤。
本发明实施例提供的可读存储介质中存储的计算机程序被电子设备的处理器执行后,电子设备可以确定所展示的文档页面,并可以确定文档页面所包含的目标名词和目标名词所对应的词类型。其中,该目标名词和词类型是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以在该文档页面标记该目标名词的词类型。这样,可以确定文档中所包含的目标名词和该目标名词所属的词类型。这样,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
相应于上述方法实施例,本发明实施例还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述实施例中任一项文档处理方法实施例提供的方法步骤。
本发明实施例提供的计算机程序被电子设备的处理器执行后,电子设备可以确定所展示的文档页面,并可以确定文档页面所包含的目标名词和目标名词所对应的词类型。其中,该目标名词和词类型是基于预先构建的识别模型对该文档页面进行识别后得到的。然后,可以在该文档页面标记该目标名词的词类型。这样,可以确定文档中所包含的目标名词和该目标名词所属的词类型。这样,便于用户了解目标名词的词类型,从而提高用户的阅读体验。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种文档处理方法,其特征在于,应用于电子设备,所述方法包括:
确定所展示的文档页面;
确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型;其中,所述目标名词和所述词类型是基于预先构建的识别模型对所述文档页面进行识别后得到的;
在所述文档页面标记所述目标名词的词类型;
当所述文档页面为图片类型的文档页面时,所述识别模型具体用于:
提取所述文档页面中所包含的文字;
基于预设的分词算法,确定所述文字中的词汇;
将与预设词条库中的词条名相匹配的所述词汇,确定为目标名词;
查找所述预设词条中所述目标名词所对应的解释;
根据所查找的解释确定所述目标名词所有可能的词类型;
当所述目标名词所有可能的词类型为多种时,利用预设的自然语言识别算法对所述文档页面进行语义识别,得到所述文档页面的语义识别结果,并根据所述语义识别结果从所述目标名词所有可能的词类型中确定所述目标名词的词类型;
当所述目标名词所有可能的词类型为一种时,将得到的一种可能的词类型确定为所述目标名词的词类型。
2.根据权利要求1所述的方法,其特征在于,在所述确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型的步骤之前,还包括:
判断所述文档页面的展示时间是否超过预设阈值;
若是,触发所述确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型的步骤。
3.根据权利要求1所述的方法,其特征在于,所述确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型的步骤,包括:
将所述文档页面输入至预先构建的识别模型,得到所述文档页面所包含的目标名词和所述目标名词所对应的词类型;其中,所述识别模型用于识别所述文档页面中的所述目标名词和所述目标名词的词类型。
4.根据权利要求1所述的方法,其特征在于,所述确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型的步骤,包括:
将所述文档页面发送给服务器,以使所述服务器基于所述识别模型识别所述文档页面中的所述目标名词和所述目标名词的词类型;
接收所述服务器发送的所述目标名词和所述词类型。
5.根据权利要求1所述的方法,其特征在于,所述词类型包括:地名、人名、职业名、数学定理名、化学定理名和物理定理名中的一项或多项。
6.一种文档处理装置,其特征在于,应用于电子设备,所述装置包括:
第一确定模块,用于确定所展示的文档页面;
第二确定模块,用于确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型;其中,所述目标名词和所述词类型是基于预先构建的识别模型对所述文档页面进行识别后得到的;
标记模块,用于在所述文档页面标记所述目标名词的词类型;
当所述文档页面为图片类型的文档页面时,所述识别模型具体用于:
提取所述文档页面中所包含的文字;
基于预设的分词算法,确定所述文字中的词汇;
将与预设词条库中的词条名相匹配的所述词汇,确定为目标名词;
查找所述预设词条中所述目标名词所对应的解释;
根据所查找的解释确定所述目标名词所有可能的词类型;
当所述目标名词所有可能的词类型为多种时,利用预设的自然语言识别算法对所述文档页面进行语义识别,得到所述文档页面的语义识别结果,并根据所述语义识别结果从所述目标名词所有可能的词类型中确定所述目标名词的词类型;
当所述目标名词所有可能的词类型为一种时,将得到的一种可能的词类型确定为所述目标名词的词类型。
7.根据权利要求6所述的装置,其特征在于,还包括:
判断模块,用于在确定所述文档页面所包含的目标名词和所述目标名词所对应的词类型之前,判断所述文档页面的展示时间是否超过预设阈值;
触发模块,用于当所述文档页面的展示时间超过预设阈值时,触发所述第二确定模块。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一所述的方法步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质为电子设备中的可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被所述电子设备的处理器执行时实现权利要求1-5中任一所述的方法步骤。
CN202010504847.9A 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质 Active CN112784593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010504847.9A CN112784593B (zh) 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010504847.9A CN112784593B (zh) 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112784593A CN112784593A (zh) 2021-05-11
CN112784593B true CN112784593B (zh) 2023-02-03

Family

ID=75749219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010504847.9A Active CN112784593B (zh) 2020-06-05 2020-06-05 一种文档处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112784593B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808523A (zh) * 2016-03-08 2016-07-27 浪潮软件股份有限公司 一种识别文档的方法及装置
CN110263149A (zh) * 2019-05-29 2019-09-20 科大讯飞股份有限公司 一种文本展示方法及装置
CN110569370A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN110825875A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN111008519A (zh) * 2019-12-25 2020-04-14 掌阅科技股份有限公司 阅读页面的展示方法、电子设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808523A (zh) * 2016-03-08 2016-07-27 浪潮软件股份有限公司 一种识别文档的方法及装置
CN110263149A (zh) * 2019-05-29 2019-09-20 科大讯飞股份有限公司 一种文本展示方法及装置
CN110569370A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN110825875A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN111008519A (zh) * 2019-12-25 2020-04-14 掌阅科技股份有限公司 阅读页面的展示方法、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN112784593A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN111680490B (zh) 一种跨模态的文档处理方法、装置及电子设备
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN109947903B (zh) 一种成语查询方法及装置
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN110750983A (zh) 语料识别方法、装置、设备及计算机可读存储介质
CN112464927B (zh) 一种信息提取方法、装置及系统
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
US20220058214A1 (en) Document information extraction method, storage medium and terminal
CN111046627A (zh) 一种中文文字显示方法及系统
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN112784594B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN112784593B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN110363189B (zh) 一种文档内容修复方法、装置、电子设备及可读存储介质
CN114742058B (zh) 一种命名实体抽取方法、装置、计算机设备及存储介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN112541373A (zh) 司法文本识别方法、文本识别模型获得方法及相关设备
CN107168627B (zh) 用于触摸屏的文本编辑方法和装置
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
CN110633457A (zh) 一种内容替换方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant