CN111831460B - 一种文本复制粘贴方法、系统及可读存储介质 - Google Patents
一种文本复制粘贴方法、系统及可读存储介质 Download PDFInfo
- Publication number
- CN111831460B CN111831460B CN202010612028.6A CN202010612028A CN111831460B CN 111831460 B CN111831460 B CN 111831460B CN 202010612028 A CN202010612028 A CN 202010612028A CN 111831460 B CN111831460 B CN 111831460B
- Authority
- CN
- China
- Prior art keywords
- information
- text
- format
- document
- target document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/543—User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种文本复制粘贴方法,应用于复制原文档的文本并粘贴至目标文档,包括以下步骤:当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或所述目标文档的目标格式;对所述目标文档执行去格式化和文本分析,得到预处理文档;将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述根据格式配置信息调整所述预处理文档的文本格式。本发明先对目标文档进行去格式化和文本分析,再配合格式配置信息可对文本的全文有针对性地改变格式,大大提高了复制粘贴效率。本发明还公开了一种采用上述方法的系统和可读存储介质。
Description
技术领域
本发明涉及电子文档处理技术领域,特别是涉及一种文本复制粘贴方法、系统及可读存储介质。
背景技术
在用户撰写完文档之后都需要对文档进行格式调整,使得文档排版满足用户或出版社的需求。
目前,一般采用手动对文档的内容一一进行格式调整,如每段的字体、字号或加粗与否。部分用户会选择事先准备好文本模板,将需要粘贴的内容按文本格式分为若干部分,然后依次将所有部分粘贴至文本模板上。
现有的文本格式调整方法需要花费大量的时间和精力,效率较低,无法对用户粘贴的文本细节内容进行区别化的格式定义。
发明内容
本发明的一个目的在于提出一种能提高复制粘贴效率的文本复制粘贴方法。
一种文本复制粘贴方法,应用于复制原文档的文本并粘贴至目标文档,包括以下步骤:
当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或所述目标文档的目标格式;
对所述目标文档执行去格式化和文本分析,得到预处理文档;
将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述根据格式配置信息调整所述预处理文档的文本格式。
本发明的有益效果是:先对目标文档进行去格式化和文本分析,再配合格式配置信息可对文本的全文有针对性地改变格式,大大提高了复制粘贴效率。
另外,根据本发明提供的文本复制粘贴方法,还可以具有如下附加的技术特征:
进一步地,所述格式配置信息包括格式化目的信息。
进一步地,所述文本分析为基于所述目标文档的文本格式,对所述目标文档进行角色标注。
进一步地,所述角色标注为语义角色标注,或通过命名实体识别获取角色进行标注。
进一步地,所述角色标注的步骤包括:
若所述原文档和所述目标文档为相同文件类型,提取所述原文档中所有的标题段落;
获取所述标题段落的字体信息、字号信息和加粗信息,根据下式计算得到加权特征值P,以P作为所述角色标注的指标:
P=α·A+β·B+γ·C
式中,α、β和γ分别为所述字体信息、字号信息和加粗信息预设的权重值,A、B和C分别所述字体信息、字号信息和加粗信息预设的特征值。
进一步地,所述角色标注的步骤还包括:
若所述原文档与所述目标文档的文件类型不相同,更改所述字体信息、字号信息和加粗信息,所述更改后的字体信息、字号信息和加粗信息匹配所述目标文档。
本发明的另一个目的在于提出一种采用上述方法的文本复制粘贴系统,包括:
获取模块,用于当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或所述目标文档的目标格式;
预处理模块,用于对所述目标文档执行去格式化和文本分析,得到预处理文档;
调整模块,用于将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述根据格式配置信息调整所述预处理文档的文本格式。
本发明还提出一种可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明第一实施例的文本复制粘贴方法的流程示意图;
图2是本发明第一实施例的文本内容示例;
图3是本发明第二实施例的文本复制粘贴系统的结构框图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
请参阅图1,本发明的第一实施例提出一种文本复制粘贴方法,应用于复制原文档的文本并粘贴至目标文档,包括以下步骤。
S1.当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或所述目标文档的目标格式。
在本实施例中,所述格式配置信息包括格式化目的信息。
为了使格式定义配置文件不受具体文档类型的限制,用户自定义的文档格式和/或对其它文档进行解析之后获得的文档格式不包含确切格式,包含的是格式化目的。例如,在word文档中一级标题的确切格式为三号、楷体、加粗,但是在格式定义配置文件中,保存的是一级标题的格式化目的,例如:字号最大、字体与正文不同、强调。
另外,还可以定义目的“强调”所对应的格式,如加粗或加下划线或特定颜色等,或其相应的组合,且可以根据文档类型设定相应的对应关系,例如对于word文档,“强调”对应加粗,对于PPT,“强调”对应添加百叶窗动画;这样在将格式定义配置文件应用到其它类型文档,例如网页文档时,不会因为网页文档中缺失某些字体或字号而导致格式调整出错的问题;而对应于投稿期刊的格式定义配置文件可以包括对文章编号、页眉、页尾、关键字、中图分类号等的格式化目的。
S2.对所述目标文档执行去格式化和文本分析,得到预处理文档。
具体的,对待格式调整的文档进行预处理,预处理包括去格式化和文本分析。其中,去格式化是将文档内容转换成统一的格式,文本分析是基于采用的格式定义配置文件的定义,对文本进行角色标注,确定文本的标题、正文、主题词、关键词、数词、情感词、图片、表格、人名、地名、时间等对应的文本内容和相应的位置。
另外,所述文本分析为基于所述目标文档的文本格式,对所述目标文档进行角色标注,所述角色标注为语义角色标注,或通过命名实体识别获取角色进行标注。
其中,所述角色标注的步骤包括:
S21.若所述原文档和所述目标文档为相同文件类型,提取所述原文档中所有的标题段落;
S22.获取所述标题段落的字体信息、字号信息和加粗信息,根据下式计算得到加权特征值P,以P作为所述角色标注的指标:
P=α·A+β·B+γ·C
式中,α、β和γ分别为所述字体信息、字号信息和加粗信息预设的权重值,A、B和C分别所述字体信息、字号信息和加粗信息预设的特征值。
需要说明的是,结合内容格式对其它文档中的文档内容进行角色标注和格式提取,具体的语义角色的定义可以根据具体处理的文档灵活限定,例如可以为标题、正文、主题词、关键词、数词、情感词、图片、表格等;当其它文档为word文档时,对word文档内容的格式进行分析,对于首行没有缩进两字符的段落、且其格式与下一段落的格式不同,则可以确定该段落为标题段落,提取出所有标题段落后,对标题段落的字体、字号、加粗与否等进行解析,假设文档中一级标题格式为:三号、楷体、加粗;二级标题格式为:四号、楷体、加粗;三级标题格式为:四号、黑体;可以按字号大小分为一级标题、二级标题等;当字号相同时,可以进一步结合字体和加粗与否来区分不同级别的标题,可以对每个具体格式设置不同的权重,例如字号权重β=0.5,字体权重α=0.3、加粗与否权重γ=0.2,字号三号特征值B=5,字号四号特征值B=4,楷体特征值A=4、黑体特征值A=5,加粗特征值C=3,那么通过计算“四号、楷体、加粗”加权特征为:4*0.5+4*0.3+3*0.2=3.8;“四号、黑体”加权特征为:4*0.5+5*0.3=3.5,因此“四号、楷体、加粗”的标题等级比“四号、黑体”高;具体可以结合其它文档的类型设置具体的角色标注规则;在区分出不同等级的标题之后,可以在配置文件中对不同等级的标题进行格式定义:一级标题:字号最大、第一种字体、强调;二级标题:第二大字号、第一种字体、强调;三级标题:第二大字号、第二种字体;接着,可以识别word文档中插入的图片大小、表格中文字内容格式、图片和表格的名称,采用类似的方式进行格式定义,而如何识别word中图片、表格以及其对应的名称,可以采用多种方式进行识别,这是本领域公知常识;同时,对解析出的word文档中的正文,即除标题段落、图片、表格、图片和表格的名称之外的文本,以段落为单位,识别该段落的文本格式是否一致,若不一致,则提取出其中不一致的文本内容,识别该文本内容在该段落中的地位。
请参阅图2,对于“小明去年去北京游玩了7天”,以字为单位进行分析,得出“去年去、游玩了”为基本格式,而“小明”、“北京”、“7天”为特殊格式,并进一步分析特殊格式文本在当前段落中地位,可通过语义角色标注或命名实体识别的方式来进行分析,“小明”为人名、“北京”为地名、“7天”为时间,从而确定出相应段落中人名采用的格式为“小明”、地名采用的格式为“北京”,时间采用的格式为“7天”,并将相应的结果存储在格式定义配置文件;基于类似的方法,可对文章中的引用文献、主题、关键词、数词、情感词等进行格式分析。
更进一步地,所述角色标注的步骤还包括:
S23.若所述原文档与所述目标文档的文件类型不相同,更改所述字体信息、字号信息和加粗信息,所述更改后的字体信息、字号信息和加粗信息匹配所述目标文档。
例如,根据文档的类型,给格式定义配置文件中的相关格式化目的赋予具体的格式化数值,例如对于word文档,“强调”对应加粗,对于PPT,“强调”对应添加百叶窗动画。
S3.将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述根据格式配置信息调整所述预处理文档的文本格式。
可以理解的是,在粘贴过程中即可对所粘贴的文本调整格式。
本发明的优势在于,先对目标文档进行去格式化和文本分析,再配合格式配置信息可对文本的全文有针对性地改变格式,大大提高了复制粘贴效率。
请参阅图3,本发明的第二实施例提出一种文本复制粘贴系统,包括:
获取模块,用于当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或所述目标文档的目标格式;
预处理模块,用于对所述目标文档执行去格式化和文本分析,得到预处理文档;
调整模块,用于将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述根据格式配置信息调整所述预处理文档的文本格式。
需要说明的是,预处理模块为用于对待格式调整的文档进行预处理;所述预处理包括去格式化和文本分析。其中,去格式化是将文档内容转换成统一的格式,文本分析是基于采用的格式定义配置文件的定义,对文本进行角色标注,确定文本的标题、正文、主题词、关键词、数词、情感词、图片、表格、人名、地名、时间等对应的文本内容和相应的位置。
另外,调整模块用于利用格式定义配置文件,结合待格式调整的文档的类型,具体化格式定义配置文件,对经过预处理的文档进行格式调整。在该步骤中,根据文档的类型,给格式定义配置文件中的相关格式化目的赋予具体的格式化数值,例如对于word文档,“强调”对应加粗,对于PPT,“强调”对应添加百叶窗动画。
其中,预处理模块还包括分段单元和标注单元,分段单元用于获取标题段落,标注单元用于对文本进行角色标注。
本发明的第三实施例提出一种可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种文本复制粘贴方法,应用于复制原文档的文本并粘贴至目标文档,其特征在于,包括以下步骤:
当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或所述目标文档的目标格式;
对所述目标文档执行去格式化和文本分析,得到预处理文档;
将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述格式配置信息调整所述预处理文档的文本格式;
所述文本分析为基于所述目标文档的文本格式,对所述目标文档进行角色标注;
所述角色标注的步骤包括:
若所述原文档和所述目标文档为相同文件类型,提取所述原文档中所有的标题段落;
获取所述标题段落的字体信息、字号信息和加粗信息,根据下式计算得到加权特征值P,以P作为所述角色标注的指标:
P=α·A+β·B+γ·C
式中,α、β和γ分别为所述字体信息、字号信息和加粗信息预设的权重值,A、B和C分别所述字体信息、字号信息和加粗信息预设的特征值。
2.根据权利要求1所述的文本复制粘贴方法,其特征在于,所述格式配置信息包括格式化目的信息。
3.根据权利要求1所述的文本复制粘贴方法,其特征在于,所述角色标注为语义角色标注,或通过命名实体识别获取角色进行标注。
4.根据权利要求1所述的文本复制粘贴方法,其特征在于,所述角色标注的步骤还包括:
若所述原文档与所述目标文档的文件类型不相同,更改所述字体信息、字号信息和加粗信息,所述更改后的字体信息、字号信息和加粗信息匹配所述目标文档。
5.一种文本复制粘贴系统,其特征在于,包括:
获取模块,用于当接收到文本粘贴指令时,获取格式配置信息,所述格式配置信息为自定义格式或目标文档的目标格式;
预处理模块,用于对所述目标文档执行去格式化和文本分析,得到预处理文档;
调整模块,用于将格式配置信息和所述目标文档的文件类型结合,得到具体格式配置信息,根据所述格式配置信息调整所述预处理文档的文本格式;
所述文本分析为基于所述目标文档的文本格式,对所述目标文档进行角色标注;
所述角色标注的步骤包括:
若原文档和所述目标文档为相同文件类型,提取所述原文档中所有的标题段落;
获取所述标题段落的字体信息、字号信息和加粗信息,根据下式计算得到加权特征值P,以P作为所述角色标注的指标:
P=α·A+β·B+γ·C
式中,α、β和γ分别为所述字体信息、字号信息和加粗信息预设的权重值,A、B和C分别所述字体信息、字号信息和加粗信息预设的特征值。
6.一种可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612028.6A CN111831460B (zh) | 2020-06-30 | 2020-06-30 | 一种文本复制粘贴方法、系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612028.6A CN111831460B (zh) | 2020-06-30 | 2020-06-30 | 一种文本复制粘贴方法、系统及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831460A CN111831460A (zh) | 2020-10-27 |
CN111831460B true CN111831460B (zh) | 2023-06-16 |
Family
ID=72899603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010612028.6A Active CN111831460B (zh) | 2020-06-30 | 2020-06-30 | 一种文本复制粘贴方法、系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831460B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990038731A (ko) * | 1997-11-06 | 1999-06-05 | 정선종 | 전자문서를 위한 메타데이타 모형 및 모형화 방법과 메타데이타관리시스템 및 그 관리방법 |
CN101079031A (zh) * | 2006-06-15 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页主题提取系统和方法 |
CN101996165A (zh) * | 2009-08-28 | 2011-03-30 | 中国移动通信集团公司 | 智能终端上网页信息的拷贝处理方法、装置及设备 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102523172A (zh) * | 2011-11-30 | 2012-06-27 | 深圳市五巨科技有限公司 | 一种批量处理邮件信息的方法和装置 |
CN106484663A (zh) * | 2016-10-12 | 2017-03-08 | 天闻数媒科技(湖南)有限公司 | 一种文档内容的提取方法和装置 |
CN107729306A (zh) * | 2017-10-19 | 2018-02-23 | 深圳市金立通信设备有限公司 | 一种文本处理方法、终端及计算机可读介质 |
CN108763173A (zh) * | 2018-05-23 | 2018-11-06 | 广东电网有限责任公司 | 文件格式的核稿方法及装置 |
CN108874870A (zh) * | 2018-04-24 | 2018-11-23 | 北京中科闻歌科技股份有限公司 | 一种数据抽取方法、设备及计算机可存储介质 |
CN110083580A (zh) * | 2019-03-29 | 2019-08-02 | 中国地质大学(武汉) | 一种Word文档向PowerPoint文档转换的方法及系统 |
CN110321545A (zh) * | 2018-03-29 | 2019-10-11 | 成都野望数码科技有限公司 | 一种办公文档排版的方法和装置 |
CN110471970A (zh) * | 2019-08-08 | 2019-11-19 | 紫光云技术有限公司 | 一种灵活可配的规则引擎数据转发方法 |
CN110532521A (zh) * | 2018-05-23 | 2019-12-03 | 北京金山办公软件股份有限公司 | 一种文档格式套用的实现方法、装置及电子设备 |
CN110956016A (zh) * | 2018-09-25 | 2020-04-03 | 珠海金山办公软件有限公司 | 一种文档内容格式的调整方法、装置及电子设备 |
CN111095215A (zh) * | 2017-09-26 | 2020-05-01 | 谷歌有限责任公司 | 应用间传递格式特定的数据对象 |
-
2020
- 2020-06-30 CN CN202010612028.6A patent/CN111831460B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990038731A (ko) * | 1997-11-06 | 1999-06-05 | 정선종 | 전자문서를 위한 메타데이타 모형 및 모형화 방법과 메타데이타관리시스템 및 그 관리방법 |
CN101079031A (zh) * | 2006-06-15 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页主题提取系统和方法 |
CN101996165A (zh) * | 2009-08-28 | 2011-03-30 | 中国移动通信集团公司 | 智能终端上网页信息的拷贝处理方法、装置及设备 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102523172A (zh) * | 2011-11-30 | 2012-06-27 | 深圳市五巨科技有限公司 | 一种批量处理邮件信息的方法和装置 |
CN106484663A (zh) * | 2016-10-12 | 2017-03-08 | 天闻数媒科技(湖南)有限公司 | 一种文档内容的提取方法和装置 |
CN111095215A (zh) * | 2017-09-26 | 2020-05-01 | 谷歌有限责任公司 | 应用间传递格式特定的数据对象 |
CN107729306A (zh) * | 2017-10-19 | 2018-02-23 | 深圳市金立通信设备有限公司 | 一种文本处理方法、终端及计算机可读介质 |
CN110321545A (zh) * | 2018-03-29 | 2019-10-11 | 成都野望数码科技有限公司 | 一种办公文档排版的方法和装置 |
CN108874870A (zh) * | 2018-04-24 | 2018-11-23 | 北京中科闻歌科技股份有限公司 | 一种数据抽取方法、设备及计算机可存储介质 |
CN110532521A (zh) * | 2018-05-23 | 2019-12-03 | 北京金山办公软件股份有限公司 | 一种文档格式套用的实现方法、装置及电子设备 |
CN108763173A (zh) * | 2018-05-23 | 2018-11-06 | 广东电网有限责任公司 | 文件格式的核稿方法及装置 |
CN110956016A (zh) * | 2018-09-25 | 2020-04-03 | 珠海金山办公软件有限公司 | 一种文档内容格式的调整方法、装置及电子设备 |
CN110083580A (zh) * | 2019-03-29 | 2019-08-02 | 中国地质大学(武汉) | 一种Word文档向PowerPoint文档转换的方法及系统 |
CN110471970A (zh) * | 2019-08-08 | 2019-11-19 | 紫光云技术有限公司 | 一种灵活可配的规则引擎数据转发方法 |
Non-Patent Citations (7)
Title |
---|
基于分类的智能信息检索研究与实现;程传鹏;;华北水利水电学院学报(第03期);全文 * |
基于最大熵模型的语义角色标注;于江德;王希杰;余正涛;;微电子学与计算机(第08期);全文 * |
基于浅层句法分析的中文语义角色标注研究;王鑫;孙薇薇;穗志方;;中文信息学报(第01期);全文 * |
普通文件和HTML文件及XML文件信息检索过程探析;陈桂鸿;;科技情报开发与经济(第11期);全文 * |
航空公司微博评论的意见信息抽取研究――以国航、南航和东航为例;马晓君;刘亚雪;魏晓雪;刘艳;于渊博;;系统科学与数学(第04期);全文 * |
陈桂鸿 ; .普通文件和HTML文件及XML文件信息检索过程探析.科技情报开发与经济.2009,(第11期),全文. * |
面向中文图书的自动标引模型构建及实验分析;王昊;邹杰利;邓三鸿;;现代图书情报技术(第Z1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111831460A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2078423C (en) | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information | |
CN109858036B (zh) | 一种文书划分方法及装置 | |
US20060277173A1 (en) | Extraction of information from documents | |
CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
US20200364452A1 (en) | A heuristic method for analyzing content of an electronic document | |
CN110287784B (zh) | 一种年报文本结构识别方法 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN112765999A (zh) | 机器翻译双语对照方法及系统 | |
US11615244B2 (en) | Data extraction and ordering based on document layout analysis | |
US10095677B1 (en) | Detection of layouts in electronic documents | |
CN110990539A (zh) | 稿件内部查重方法、装置、存储介质及电子设备 | |
CN110738050A (zh) | 基于分词和命名实体识别的文本重组方法及装置、介质 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
CN111831460B (zh) | 一种文本复制粘贴方法、系统及可读存储介质 | |
US20090327210A1 (en) | Advanced book page classification engine and index page extraction | |
CN111310473A (zh) | 文本纠错方法及其模型训练的方法、装置 | |
US20200311059A1 (en) | Multi-layer word search option | |
CN110765107A (zh) | 基于数字化编码的题型识别方法及其系统 | |
CN112818687B (zh) | 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 | |
US11475686B2 (en) | Extracting data from tables detected in electronic documents | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
CN112990091A (zh) | 基于目标检测的研报解析方法、装置、设备和存储介质 | |
CN112364640A (zh) | 实体名词链接方法、装置、计算机设备和存储介质 | |
CN107133207A (zh) | 一种信息提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |