CN116136839A - 法规文件花脸稿的生成方法、生成系统及相关设备 - Google Patents

法规文件花脸稿的生成方法、生成系统及相关设备 Download PDF

Info

Publication number
CN116136839A
CN116136839A CN202310401971.6A CN202310401971A CN116136839A CN 116136839 A CN116136839 A CN 116136839A CN 202310401971 A CN202310401971 A CN 202310401971A CN 116136839 A CN116136839 A CN 116136839A
Authority
CN
China
Prior art keywords
text
version
level
character
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310401971.6A
Other languages
English (en)
Other versions
CN116136839B (zh
Inventor
刘跃华
杨帆
刘梓韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhengyu Software Technology Development Co ltd
Original Assignee
Hunan Zhengyu Software Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhengyu Software Technology Development Co ltd filed Critical Hunan Zhengyu Software Technology Development Co ltd
Priority to CN202310401971.6A priority Critical patent/CN116136839B/zh
Publication of CN116136839A publication Critical patent/CN116136839A/zh
Application granted granted Critical
Publication of CN116136839B publication Critical patent/CN116136839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1873Versioning file systems, temporal file systems, e.g. file system supporting different historic versions of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供了一种法规文件花脸稿的生成方法、生成系统及相关设备,本发明首先基于法规文件结构对需要对比的法规文件进行拆分,之后利用余弦相似度算法找出两份法规文件中的对应的文本,再利用尼德曼‑翁施算法比较对应文本获取得到每个字符的状态以及生成花脸稿的底稿文本,最后利用文本编辑器基于每个字符的状态渲染底稿文本得到花脸稿。本发明采用本了合适的软件算法代替人工,将法规文件花脸稿生成的整个流程做成智能自动化的,用户仅需要上传两篇需比对的法规文件就能一键生成花脸稿,减少了人工和时间成本,最大程度的解决了以前传统人工方式产生的问题。

Description

法规文件花脸稿的生成方法、生成系统及相关设备
技术领域
本发明涉及文件处理技术领域,尤其涉及一种法规文件花脸稿的生成方法、生成系统及相关设备。
背景技术
一般来讲,一篇法规文件的颁布需要经过起草→一审→二审→三审等流程,在流程中会出现许多个版本的法规稿件,立法机关的工作人员想要看到不同版本稿件的异同,修改前后的稿件做了哪些修改,传统的方式是通过人工在原稿件上操作word手动标识修改的地方,这种传统的人工标定方式需要损耗大量的人工和时间成本,对工作人员的操作要求也较高,不利于立法工作的进程推进。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于解决现有技术所存在背景技术中所提到的技术问题。
本发明第一方面提供了一种法规文件花脸稿的生成方法,所述法规文件花脸稿的生成方法包括以下步骤:
接收用户上传的版本一法规文件和版本二法规文件;
对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合;
基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系;
基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数;
基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本;
对各层级的所述组合文本按照所述版本一法规文件和所述版本二法规文件中更新日期最新的版本进行排序操作,获得底稿文本;
利用文本编辑器将所述底稿文本中的各个所述字符渲染成适配的状态样式,得到花脸稿。
在本发明第一方面一种可选的实施方式中,所述基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系包括:
对于所述版本一层级文本集合和所述版本二层级文本集合的同层级文本,从所述版本一层级文本集合中获取得到待对比文本一,从所述版本二层级文本集合中获取得到待对比文本二;
对于所述待对比文本一进行分词处理,获得待对比文本一词集以及所述待对比文本一词集中各词的词频,并基于所述待对比文本一词集中各词的词频构建得到所述待对比文本一的词向量表示;
对于所述待对比文本二进行分词处理,获得待对比文本二词集以及所述待对比文本二词集中各词的词频,并基于所述待对比文本二词集中各词的词频构建得到所述待对比文本二的词向量表示;
基于所述待对比文本一的词向量表示和所述待对比文本二的词向量表示并通过余弦相似度计算公式获得所述待对比文本一和所述待对比文本二的相似度;
基于所述相似度找出所述版本一层级文本集合和所述版本二层级文本集合中的对应文本组合和独立文本,建立所述对应文本组合之间的映射关系。
在本发明第一方面一种可选的实施方式中,所述基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数包括:
依序获取所述版本一层级文本集合和所述版本二层级文本集合各层级中的所述对应文本组合和所述独立文本;
当获取到所述对应文本组合,建立所述对应文本组合中对应文本一和对应文本二的LCS矩阵表格;
利用LCS公式计算得到所述LCS矩阵表格中各行的数值;
从所述LCS矩阵表格的右下角开始按照尼德曼-翁施算法的回溯法则获得所述LCS矩阵表格的回溯路径;
基于所述回溯路径获得所述对应文本组合的匹配字符串;
基于所述匹配字符串和所述对应文本组合,逻辑分析出所述对应文本组合中每个所述字符的状态,并记录下所述对应文本组合中每个所述字符的状态、位置以及出现的次数;
当获取到所述独立文本,判断所述独立文本是属于新增内容还是删除内容,基于所述独立文本是属于新增内容还是删除内容获得所述独立文本中每个所述字符的状态,并记录下所述独立文本中每个所述字符的状态、位置以及出现的次数。
在本发明第一方面一种可选的实施方式中,所述基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本包括:
依序获取每一层级的所述对应文本组合和所述独立文本;
对于所述对应文本组合,获取所述对应文本组合中所述对应文本一和所述待对比文本二包括的所有所述字符组成的字符集;
基于记录的所述对应文本组合中每个所述字符的状态、位置以及出现的次数对所述字符集进行去重处理,获得筛选字符集;
利用所述筛选字符集生成所述对应文本组合的组合文本;
对于所述独立文本,直接将所述独立文本并入到所述对应文本组合的所述组合文本中。
在本发明第一方面一种可选的实施方式中,所述基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本还包括:
调整所述组合文本中状态相同位置相邻的所述字符在所述组合文本中的位置,以使所述组合文本中状态相同位置相邻的所述字符组成词或短句。
在本发明第一方面一种可选的实施方式中,所述对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合包括:
利用正则匹配的方法对所述版本一法规文件和所述版本二法规文件均按照标题、题注、目录、章、节、条、款、项、目进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合。
在本发明第一方面一种可选的实施方式中,所述当获取到所述独立文本,判断所述独立文本是属于新增内容还是删除内容,基于所述独立文本是属于新增内容还是删除内容获得所述独立文本中每个所述字符的状态包括:
当获取到所述独立文本,判断所述独立文本是仅存在于所述版本一层级文本集合还是仅存在于所述版本二层级文本集合中,并配合所述版本一层级文本集合和所述版本二层级文本集合的更新时间,获得所述独立文本是属于新增内容还是删除内容;
若所述独立文本属于新增内容,则认定所述独立文本中每个所述字符的状态为新增,若所述独立文本属于删除内容,则认定所述独立文本中每个所述字符的状态为删除。
本发明第二方面提供了一种花脸稿生成系统,所述花脸稿生成系统包括:
文件接收模块,用于接收用户上传的版本一法规文件和版本二法规文件;
文件拆分模块,用于对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合;
文本配对模块,用于基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系;
文本比对模块,用于基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数;
组合文本生成模块,用于基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本;
底稿文本生成模块,用于对各层级的所述组合文本按照所述版本一法规文件和所述版本二法规文件中更新日期最新的版本进行排序操作,获得底稿文本;
底稿文本渲染模块,用于利用文本编辑器将所述底稿文本中的各个所述字符渲染成适配的状态样式,得到花脸稿。
本发明第三方面提供了一种花脸稿生成终端,所述花脸稿生成终端包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述花脸稿生成终端执行如上述任一项所述的法规文件花脸稿的生成方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的法规文件花脸稿的生成方法。
有益效果:本发明提供了一种法规文件花脸稿的生成方法、生成系统及相关设备,本发明首先基于法规文件结构对需要对比的法规文件进行拆分,之后利用余弦相似度算法找出两份法规文件中的对应的文本,再利用尼德曼-翁施算法比较对应文本获取得到每个字符的状态以及生成花脸稿的底稿文本,最后利用文本编辑器基于每个字符的状态渲染底稿文本得到花脸稿。本发明采用本了合适的软件算法代替人工,将法规文件花脸稿生成的整个流程做成智能自动化的,用户仅需要上传两篇需比对的法规文件就能一键生成花脸稿,减少了人工和时间成本,最大程度的解决了以前传统人工方式产生的问题。
附图说明
图1为本发明一种法规文件花脸稿的生成方法的一个实施例示意图;
图2为本发明一种花脸稿生成系统的一个实施例示意图;
图3为本发明一种花脸稿生成终端的一个实施例示意图。
具体实施方式
需要提前说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明第一方面提供了一种法规文件花脸稿的生成方法,所述法规文件花脸稿的生成方法包括以下步骤:
S100、接收用户上传的版本一法规文件和版本二法规文件;在本发明中,所述版本一法规文件和所述版本二法规文件对应就是立法过程中不同阶段的法规文本,所述版本一法规文件和所述版本二法规文件不相同;
S200、对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合;在本发明中,对所述版本一法规文件和所述版本二法规文件进行层级拆分主要是依据法规文件的结构,举例来说,本发明中使用的法规结构可以为标题、题注、目录、章、节、条、款、项以及目;
在步骤S200一种可选的实施方式中,本发明对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合使用的具体手段是:利用正则匹配的方法对所述版本一法规文件和所述版本二法规文件均按照标题、题注、目录、章、节、条、款、项、目进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合。以标题提取方式作为举例:标准格式的法规一般会有条文序号如第一条,截取第一条之前的内容,会包含标题、题注、目录,目录会有第一章,截取第一章之前的内容,会包含标题和题注,题注是用()包裹的,出现括号的次数大于1,则表示标题中也可能会有括号,通过括号分组,再根据首尾包含的换行符情况,可提取出标题和题注,而内容部分的提取方式则是类似“第“
Figure SMS_1
”条”这样的规则去正则匹配提取。
S300、基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系;在本发明,其中的层级指的是标题、题注、目录、章、节、条、款、项和目;其中,标题、题注和目录可以直接进行比对,而对于章、节、条、款、项和目,由于存在层层嵌套,在这些层级中每一层都采用递归的方式进行比对,以章为例,该步骤就是找出所述版本一法规文件的章和所述版本二法规文件的章中的相同或相似部分以及不同部分,相同或相似部分进行两两对比,不同部分则进行单独分析;
在步骤S300一种可选的实施方式中,所述步骤S300具体包括:
S301、对于所述版本一层级文本集合和所述版本二层级文本集合的同层级文本,从所述版本一层级文本集合中获取得到待对比文本一,从所述版本二层级文本集合中获取得到待对比文本二;在本发明中,同样以章这个层次来举例,获取文本的过程就是从所述版本一层级文本集合的章的开头开始获取一份文本1,然后在所述版本二层级文本集合的章的开头开始获取一份文本A,若不相似或相同,则在所述版本二层级文本集合的章中获取下一份文本B,再比较文本1和文本B,以此类推,直至从版本二层级文本集合的章中获取到与文本1相似或相同的目标文本,在本发明中称这个文本1和这个目标文本为对应文本组合,当所述版本一层级文本集合的章中的每份文本都对比完成之后,再在所述版本一层级文本集合的章中和所述版本二层级文本集合的章中找到未匹配到的文本,这些未匹配到的文本在本发明中称呼为独立文本;
S302、对于所述待对比文本一进行分词处理,获得待对比文本一词集以及所述待对比文本一词集中各词的词频,并基于所述待对比文本一词集中各词的词频构建得到所述待对比文本一的词向量表示;
S303、对于所述待对比文本二进行分词处理,获得待对比文本二词集以及所述待对比文本二词集中各词的词频,并基于所述待对比文本二词集中各词的词频构建得到所述待对比文本二的词向量表示;
S304、基于所述待对比文本一的词向量表示和所述待对比文本二的词向量表示并通过余弦相似度计算公式获得所述待对比文本一和所述待对比文本二的相似度;
在本发明中,步骤S302-S304中相似度部分的具体处理过程可以理解为:将文本A,文本B分词,统计出每篇文本分词结果的词频tf(term frequency),基于tf构建词向量,依据上文余弦相似度公式计算得出文本之间的相似度,逻辑处理找出最各层级之间最相似的文本A与文本B。其中,构建词向量表示以具体的两段文字来说明就是,例如”我是中国人我爱中国“与”我是中国人我很爱中国“这两段文字→两段文字的词向量表示分别为:”我2,是1,中国2,人1,很0,爱1“→(2,2,1,0,1);”我2,是1,中国2,人1,很1,爱1“→(2,2,1,1,1)。
S305、基于所述相似度找出所述版本一层级文本集合和所述版本二层级文本集合中的对应文本组合和独立文本,建立所述对应文本组合之间的映射关系。在本发明中,以两份文本简化来讲,文本1中包括A1、B1、C1、D1四段内容,文本2中包括A2、C2、D2三段内容,其中,A1和A2内容相同或相近,C1和C2内容相同或相近,D1和D2内容相同或相近,(A1,A2),(C1,C2)和(D1,D2)就是对应文本组合,C1就是独立文本。
S400、基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数;在本发明中,在获得了各层级文本之间的映射关系之后,就是要对存在映射的文本(即对应文本组合)和不存在映射的文本(独立文本)进行具体的各个字符的状态分析,在本发明中,分析采用了尼德曼-翁施算法(Needleman-Wunsch)算法,尼德曼-翁施算法是基于动态规划思想引入到生物信息学中的一种算法,其定义了三种情况匹配、不匹配、错位,在法规比对的应用中,本发明将其改造成修改、删除、新增三种比对的操作状态。
在步骤S400一种可选的实施方式中,所述步骤S400包括:
S401、依序获取所述版本一层级文本集合和所述版本二层级文本集合各层级中的所述对应文本组合和所述独立文本;在本发明中,依序获取的意思是,如果这个层级的文本包括所述对应文本组合和所述独立文本,这个顺序就是先依序获取所述对应文本组合,之后再依序获取所述版本一层级文本集合中的所述独立文本,再之后依序获取所述版本二层级文本集合中的所述独立文本,当然的获取所述版本一层级文本集合和所述版本二层级文本集合中所述独立文本的先后顺序可以根据实际情况进行调换;
S402、当获取到所述对应文本组合,建立所述对应文本组合中对应文本一和对应文本二的LCS矩阵表格;利用LCS公式计算得到所述LCS矩阵表格中各行的数值;从所述LCS矩阵表格的右下角开始按照尼德曼-翁施算法的回溯法则获得所述LCS矩阵表格的回溯路径;基于所述回溯路径获得所述对应文本组合的匹配字符串;基于所述匹配字符串和所述对应文本组合,逻辑分析出所述对应文本组合中每个所述字符的状态,并记录下所述对应文本组合中每个所述字符的状态、位置以及出现的次数;需要说明的是所述版本一层级文本集合和所述版本二层级文本集合中的字符包括英文字符、数字字符、汉字字符以及符合字符,本发明以两段英文字符串举例来说明对所述对应文本组合的处理过程,两段英文字符为A=GGATCGA,B=GAATTCAGTTA,首先生成一个空白的表格,表格的行数为B英文字符串的英文字符数,表格的列数为A英文字符串的英文字符数,将B英文字符串的各个英文字符填入表格的顶行中,将A英文字符串的英文字符填入表格的左列中,利用LCS公式计算得到表格中各空格的值,然后通过回溯找到匹配字符串,在获得了匹配字符串之后,通过比对匹配字符串、A英文字符串和B英文字符串通过逻辑分析就可以获得各个字符的状态,最后记录每个所述字符的状态、位置以及出现的次数;
S403、当获取到所述独立文本,判断所述独立文本是属于新增内容还是删除内容,基于所述独立文本是属于新增内容还是删除内容获得所述独立文本中每个所述字符的状态,并记录下所述独立文本中每个所述字符的状态、位置以及出现的次数。
在步骤S403中,更具体的来讲,当获取到所述独立文本,先判断所述独立文本是仅存在于所述版本一层级文本集合还是仅存在于所述版本二层级文本集合中,并配合所述版本一层级文本集合和所述版本二层级文本集合的更新时间,获得所述独立文本是属于新增内容还是删除内容;若所述独立文本属于新增内容,则认定所述独立文本中每个所述字符的状态为新增,若所述独立文本属于删除内容,则认定所述独立文本中每个所述字符的状态为删除。举例来说,所述版本二层级文本集合的更新时间要晚于所述版本一层级文本集合,如果所述独立文本在所述版本一层级文本集合中,那么所述独立文本就为删除内容;如果所述独立文本在所述版本二层级文本集合中,那么所述独立文本就为新增内容。
S500、基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本;在本发明中,生成每层的所述组合文本的顺序也是按照标题、题注、目录、章、节、条、款、项、目的顺序进行。
在步骤S500一种可选的实施方式中,所述步骤S500包括:
S501、依序获取每一层级的所述对应文本组合和所述独立文本;在本发明中,步骤S501获取每一层级的所述对应文本组合和所述独立文本的顺序可以和步骤S401相同;
S502、对于所述对应文本组合,获取所述对应文本组合中所述对应文本一和所述待对比文本二包括的所有所述字符组成的字符集;基于记录的所述对应文本组合中每个所述字符的状态、位置以及出现的次数对所述字符集进行去重处理,获得筛选字符集;利用所述筛选字符集生成所述对应文本组合的组合文本;
S503、对于所述独立文本,直接将所述独立文本并入到所述对应文本组合的所述组合文本中。以文本1中包括A1、B1、C1、D1四段内容,文本2中包括A2、C2、D2三段内容为例,每层生成组合文本的过程可以是先进行(A1,A2),(C1,C2)和(D1,D2)的内容组合,之后把B1的内容并入到在(A1,A2),(C1,C2)和(D1,D2)得到组合文本之后获之前。
此外,在步骤S500一种可选的实施方式中,所述基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本还包括:调整所述组合文本中状态相同位置相邻的所述字符在所述组合文本中的位置,以使所述组合文本中状态相同位置相邻的所述字符组成词或短句。在本发明中,将状态相同位置相邻的所述字符组成词和短句是为了在最后渲染样式时能更好的显示,例如:“公式”改成“算法”,若不进行状态相同位置相邻的字符的组词,样式渲染后就会得到“公算式法”,这样看起来很别扭,而组词之后就会得到“公式算法”,这样看起来更为贴切。
S600、对各层级的所述组合文本按照所述版本一法规文件和所述版本二法规文件中更新日期最新的版本进行排序操作,获得底稿文本;在本发明,该步主要有2部分内容,一部分就是对于每层所述组合文本内容顺序的调整,由于在生成组合文本的过程中,所述组合文本中各部分的顺序被打乱了,所以需要恢复,另一部分就是恢复后各层所述组合文本按照更新日期最新的版本进行排序操作,在本步骤S600中,如果所述版本二法规文件是最新的版本,这一步骤就是基于所述版本二法规文件的文件结构对各层级的所述组合文本进行排序。
S700、利用文本编辑器将所述底稿文本中的各个所述字符渲染成适配的状态样式,得到花脸稿。在步骤S700中,就是根据所述底稿文本中的各个所述字符的状态操作文本编辑器修改底稿文本各个所述字符的状态,例如新增加粗、删除加灰色底纹的样式渲染,最后生成花脸稿。
换一种方式理解,本发明的法规文件花脸稿的生成方法可以简化理解为:
(1):严格按照法规结构对传入的两篇比对文本进行拆分;
该步骤的目的是对用户上传的法规文本进行结构拆分处理。
根据法规结构:标题、题注、目录、章、节、条、款、项、目对两篇法规文本利用正则匹配将法规中的标题、题注、目录、章、节、条、款、项、目一一拆分提取。
(2):根据拆分完成的法规文本结构对每一层级进行相似度匹配;
在该步骤中,标题、题注、目录由于文本内容短,基本是一句对应一句,所以可以根据Needleman-Wunsch算法直接比对出结果;章、节、条、款、项、目层层嵌套,每一层递归比对,根据余弦相似度sim(A,B) =
Figure SMS_2
找出每一层最相似的内容进行再比对。
相似度部分的具体处理为:将文本A,文本B分词,统计出每篇文本分词结果的词频tf(term frequency),基于tf构建词向量,依据上文余弦相似度公式计算得出文本之间的相似度,逻辑处理找出最各层级之间最相似的文本A与文本B。
(3):处理好的修改前后的对应文本之间比对;
利用Needleman-Wunsch算法将拆分后各层级待比对的文本A、文本B中的每一对字符识别为新增、删除、修改三种状态,全部识别完后根据每一个字符的位置将状态相同位置相邻的单个字符组成词语和短句,标识好相应的状态之后返回结果,该步骤的详细子步骤如下:
1、根据拆分好的层级递归获取每一层需比对的文本内容,利用Needleman-Wunsch算法比对出结果。Needleman-Wunsch算法是基于动态规划思想引入到生物信息学中的一种算法,其定义了三种情况匹配、不匹配、错位,在法规比对的应用中我们将其改造成修改、删除、新增三种比对的操作状态。
2、比对中记录每个字符对应的状态,位置及出现的次数,生成动态的组合文本,根据比对的状态和位置将状态相同位置相邻的单个字符组成词或短句。
3、比对完所有层级得出结果后,对章、节、条、款、项根据修改后的法规文本进行排序操作并将例如:第一条变更为第五条这类出现了移位操作的法规排至文章中正确的位置且表示出第几条移动至第几条。
(4):根据比对的结果操作文本编辑器渲染样式生成花脸稿;
根据比对结果操作文本编辑器,根据状态的不同进行新增加粗,删除加灰色底纹的样式渲染,最后生成花脸稿。
参见图2,本发明第二方面提供了一种花脸稿生成系统,所述花脸稿生成系统包括:
文件接收模块10,用于接收用户上传的版本一法规文件和版本二法规文件;
文件拆分模块20,用于对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合;
文本配对模块30,用于基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系;
文本比对模块40,用于基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数;
组合文本生成模块50,用于基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本;
底稿文本生成模块60,用于对各层级的所述组合文本按照所述版本一法规文件和所述版本二法规文件中更新日期最新的版本进行排序操作,获得底稿文本;
底稿文本渲染模块70,用于利用文本编辑器将所述底稿文本中的各个所述字符渲染成适配的状态样式,得到花脸稿。
在本发明第二方面一种可选的实施方式中,所述文本配对模块包括:
对比文本获取单元,用于对于所述版本一层级文本集合和所述版本二层级文本集合的同层级文本,从所述版本一层级文本集合中获取得到待对比文本一,从所述版本二层级文本集合中获取得到待对比文本二;
词向量生成单元,用于对于所述待对比文本一进行分词处理,获得待对比文本一词集以及所述待对比文本一词集中各词的词频,并基于所述待对比文本一词集中各词的词频构建得到所述待对比文本一的词向量表示;以及用于对于所述待对比文本二进行分词处理,获得待对比文本二词集以及所述待对比文本二词集中各词的词频,并基于所述待对比文本二词集中各词的词频构建得到所述待对比文本二的词向量表示;
相似度计算单元,用于基于所述待对比文本一的词向量表示和所述待对比文本二的词向量表示并通过余弦相似度计算公式获得所述待对比文本一和所述待对比文本二的相似度;
关系建立单元,用于基于所述相似度找出所述版本一层级文本集合和所述版本二层级文本集合中的对应文本组合和独立文本,建立所述对应文本组合之间的映射关系。
在本发明第二方面一种可选的实施方式中,所述文本比对模块包括:
第一文本获取单元,用于依序获取所述版本一层级文本集合和所述版本二层级文本集合各层级中的所述对应文本组合和所述独立文本;
对应文本组合比对单元,用于当获取到所述对应文本组合,建立所述对应文本组合中对应文本一和对应文本二的LCS矩阵表格;利用LCS公式计算得到所述LCS矩阵表格中各行的数值;从所述LCS矩阵表格的右下角开始按照尼德曼-翁施算法的回溯法则获得所述LCS矩阵表格的回溯路径;基于所述回溯路径获得所述对应文本组合的匹配字符串;基于所述匹配字符串和所述对应文本组合,逻辑分析出所述对应文本组合中每个所述字符的状态,并记录下所述对应文本组合中每个所述字符的状态、位置以及出现的次数;
独立文本比对单元,用于当获取到所述独立文本,判断所述独立文本是属于新增内容还是删除内容,基于所述独立文本是属于新增内容还是删除内容获得所述独立文本中每个所述字符的状态,并记录下所述独立文本中每个所述字符的状态、位置以及出现的次数。
在本发明第二方面一种可选的实施方式中,所述组合文本生成模块包括:
第二文本获取单元,用于依序获取每一层级的所述对应文本组合和所述独立文本;
对应文本组合处理单元,用于对于所述对应文本组合,获取所述对应文本组合中所述对应文本一和所述待对比文本二包括的所有所述字符组成的字符集;基于记录的所述对应文本组合中每个所述字符的状态、位置以及出现的次数对所述字符集进行去重处理,获得筛选字符集;利用所述筛选字符集生成所述对应文本组合的组合文本;
独立文本并入单元,用于对于所述独立文本,直接将所述独立文本并入到所述对应文本组合的所述组合文本中。
在本发明第二方面一种可选的实施方式中,所述组合文本生成模块还包括:
字符位置调整单元,用于调整所述组合文本中状态相同位置相邻的所述字符在所述组合文本中的位置,以使所述组合文本中状态相同位置相邻的所述字符组成词或短句。
在本发明第二方面一种可选的实施方式中,所述文件拆分模块包括:
正则匹配单元,用于利用正则匹配的方法对所述版本一法规文件和所述版本二法规文件均按照标题、题注、目录、章、节、条、款、项、目进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合。
在本发明第二方面一种可选的实施方式中,所述独立文本比对单元包括:
独立文本属性判断子单元,用于当获取到所述独立文本,判断所述独立文本是仅存在于所述版本一层级文本集合还是仅存在于所述版本二层级文本集合中,并配合所述版本一层级文本集合和所述版本二层级文本集合的更新时间,获得所述独立文本是属于新增内容还是删除内容;
独立文本字符状态确定子单元,用于若所述独立文本属于新增内容,则认定所述独立文本中每个所述字符的状态为新增,若所述独立文本属于删除内容,则认定所述独立文本中每个所述字符的状态为删除。
图3是本发明实施例提供的一种花脸稿生成终端的结构示意图,该花脸稿生成终端可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器80(centralprocessing units,CPU)(例如,一个或一个以上处理器)和存储器90,一个或一个以上存储应用程序或数据的存储介质100(例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对花脸稿生成终端中的一系列指令操作。更进一步地,处理器可以设置为与存储介质通信,在花脸稿生成上执行存储介质中的一系列指令操作。
本发明花脸稿生成终端还可以包括一个或一个以上电源110,一个或一个以上有线或无线网络接口120,一个或一个以上输入输出接口130,和/或,一个或一个以上操作系统,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的花脸稿生成终端结构并不构成对本发明花脸稿生成终端的具体限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述的法规文件花脸稿的生成方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或系统、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种法规文件花脸稿的生成方法,其特征在于,所述法规文件花脸稿的生成方法包括以下步骤:
接收用户上传的版本一法规文件和版本二法规文件;
对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合;
基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系;
基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数;
基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本;
对各层级的所述组合文本按照所述版本一法规文件和所述版本二法规文件中更新日期最新的版本进行排序操作,获得底稿文本;
利用文本编辑器将所述底稿文本中的各个所述字符渲染成适配的状态样式,得到花脸稿。
2.根据权利要求1所述的法规文件花脸稿的生成方法,其特征在于,所述基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系包括:
对于所述版本一层级文本集合和所述版本二层级文本集合的同层级文本,从所述版本一层级文本集合中获取得到待对比文本一,从所述版本二层级文本集合中获取得到待对比文本二;
对于所述待对比文本一进行分词处理,获得待对比文本一词集以及所述待对比文本一词集中各词的词频,并基于所述待对比文本一词集中各词的词频构建得到所述待对比文本一的词向量表示;
对于所述待对比文本二进行分词处理,获得待对比文本二词集以及所述待对比文本二词集中各词的词频,并基于所述待对比文本二词集中各词的词频构建得到所述待对比文本二的词向量表示;
基于所述待对比文本一的词向量表示和所述待对比文本二的词向量表示并通过余弦相似度计算公式获得所述待对比文本一和所述待对比文本二的相似度;
基于所述相似度找出所述版本一层级文本集合和所述版本二层级文本集合中的对应文本组合和独立文本,建立所述对应文本组合之间的映射关系。
3.根据权利要求2所述的法规文件花脸稿的生成方法,其特征在于,所述基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数包括:
依序获取所述版本一层级文本集合和所述版本二层级文本集合各层级中的所述对应文本组合和所述独立文本;
当获取到所述对应文本组合,建立所述对应文本组合中对应文本一和对应文本二的LCS矩阵表格;
利用LCS公式计算得到所述LCS矩阵表格中各行的数值;
从所述LCS矩阵表格的右下角开始按照尼德曼-翁施算法的回溯法则获得所述LCS矩阵表格的回溯路径;
基于所述回溯路径获得所述对应文本组合的匹配字符串;
基于所述匹配字符串和所述对应文本组合,逻辑分析出所述对应文本组合中每个所述字符的状态,并记录下所述对应文本组合中每个所述字符的状态、位置以及出现的次数;
当获取到所述独立文本,判断所述独立文本是属于新增内容还是删除内容,基于所述独立文本是属于新增内容还是删除内容获得所述独立文本中每个所述字符的状态,并记录下所述独立文本中每个所述字符的状态、位置以及出现的次数。
4.根据权利要求3所述的法规文件花脸稿的生成方法,其特征在于,所述基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本包括:
依序获取每一层级的所述对应文本组合和所述独立文本;
对于所述对应文本组合,获取所述对应文本组合中所述对应文本一和所述待对比文本二包括的所有所述字符组成的字符集;
基于记录的所述对应文本组合中每个所述字符的状态、位置以及出现的次数对所述字符集进行去重处理,获得筛选字符集;
利用所述筛选字符集生成所述对应文本组合的组合文本;
对于所述独立文本,直接将所述独立文本并入到所述对应文本组合的所述组合文本中。
5.根据权利要求4所述的法规文件花脸稿的生成方法,其特征在于,所述基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本还包括:
调整所述组合文本中状态相同位置相邻的所述字符在所述组合文本中的位置,以使所述组合文本中状态相同位置相邻的所述字符组成词或短句。
6.根据权利要求1所述的法规文件花脸稿的生成方法,其特征在于,所述对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合包括:
利用正则匹配的方法对所述版本一法规文件和所述版本二法规文件均按照标题、题注、目录、章、节、条、款、项、目进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合。
7.根据权利要求3所述的法规文件花脸稿的生成方法,其特征在于,所述当获取到所述独立文本,判断所述独立文本是属于新增内容还是删除内容,基于所述独立文本是属于新增内容还是删除内容获得所述独立文本中每个所述字符的状态包括:
当获取到所述独立文本,判断所述独立文本是仅存在于所述版本一层级文本集合还是仅存在于所述版本二层级文本集合中,并配合所述版本一层级文本集合和所述版本二层级文本集合的更新时间,获得所述独立文本是属于新增内容还是删除内容;
若所述独立文本属于新增内容,则认定所述独立文本中每个所述字符的状态为新增,若所述独立文本属于删除内容,则认定所述独立文本中每个所述字符的状态为删除。
8.一种花脸稿生成系统,其特征在于,所述花脸稿生成系统包括:
文件接收模块,用于接收用户上传的版本一法规文件和版本二法规文件;
文件拆分模块,用于对所述版本一法规文件和所述版本二法规文件进行层级拆分,分别获得版本一层级文本集合和版本二层级文本集合;
文本配对模块,用于基于余弦相似度对所述版本一层级文本集合和所述版本二层级文本集合进行逐层文本比对,找出所述版本一层级文本集合和所述版本二层级文本集合之间的文本映射关系;
文本比对模块,用于基于尼德曼-翁施算法对所述版本一层级文本集合和所述版本二层级文本集合各层级的文本进行比对,记录每个字符的状态、位置以及出现的次数;
组合文本生成模块,用于基于所述版本一层级文本集合和所述版本二层级文本集合各层级文本中每个所述字符的状态、位置以及出现的次数生成各层级的组合文本;
底稿文本生成模块,用于对各层级的所述组合文本按照所述版本一法规文件和所述版本二法规文件中更新日期最新的版本进行排序操作,获得底稿文本;
底稿文本渲染模块,用于利用文本编辑器将所述底稿文本中的各个所述字符渲染成适配的状态样式,得到花脸稿。
9.一种花脸稿生成终端,其特征在于,所述花脸稿生成终端包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述花脸稿生成终端执行如权利要求1-7中任一项所述的法规文件花脸稿的生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的法规文件花脸稿的生成方法。
CN202310401971.6A 2023-04-17 2023-04-17 法规文件花脸稿的生成方法、生成系统及相关设备 Active CN116136839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310401971.6A CN116136839B (zh) 2023-04-17 2023-04-17 法规文件花脸稿的生成方法、生成系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310401971.6A CN116136839B (zh) 2023-04-17 2023-04-17 法规文件花脸稿的生成方法、生成系统及相关设备

Publications (2)

Publication Number Publication Date
CN116136839A true CN116136839A (zh) 2023-05-19
CN116136839B CN116136839B (zh) 2023-06-23

Family

ID=86334709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310401971.6A Active CN116136839B (zh) 2023-04-17 2023-04-17 法规文件花脸稿的生成方法、生成系统及相关设备

Country Status (1)

Country Link
CN (1) CN116136839B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
CN106776677A (zh) * 2016-10-25 2017-05-31 腾讯科技(深圳)有限公司 文件转换方法、装置及文件传输系统
CN108073571A (zh) * 2018-01-12 2018-05-25 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
WO2019136993A1 (zh) * 2018-01-12 2019-07-18 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN110689225A (zh) * 2019-08-26 2020-01-14 深圳壹账通智能科技有限公司 基于外呼的企业金融风险画像创建方法及相关设备
US20200019384A1 (en) * 2018-07-15 2020-01-16 Microsoft Technology Licensing, Llc Text editor buffering implementation with offsets management
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN113268564A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 相似问题的生成方法、装置、设备及存储介质
CN113486649A (zh) * 2021-06-24 2021-10-08 竹间智能科技(上海)有限公司 文本评论的生成方法以及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
CN106776677A (zh) * 2016-10-25 2017-05-31 腾讯科技(深圳)有限公司 文件转换方法、装置及文件传输系统
CN108073571A (zh) * 2018-01-12 2018-05-25 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
WO2019136993A1 (zh) * 2018-01-12 2019-07-18 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
US20200019384A1 (en) * 2018-07-15 2020-01-16 Microsoft Technology Licensing, Llc Text editor buffering implementation with offsets management
CN110689225A (zh) * 2019-08-26 2020-01-14 深圳壹账通智能科技有限公司 基于外呼的企业金融风险画像创建方法及相关设备
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN113268564A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 相似问题的生成方法、装置、设备及存储介质
CN113486649A (zh) * 2021-06-24 2021-10-08 竹间智能科技(上海)有限公司 文本评论的生成方法以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘华: ""文本分类相似度模型和概率模型的实现与比较"", 《现代图书情报技术》, pages 53 - 55 *

Also Published As

Publication number Publication date
CN116136839B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US6721451B1 (en) Apparatus and method for reading a document image
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
US9870382B2 (en) Data encoding and corresponding data structure
US20150254530A1 (en) Framework for data extraction by examples
US20130061121A1 (en) Extracting Semantics from Data
CN106796578A (zh) 知识自动化系统
WO2012054788A1 (en) Method and system for performing a comparison
KR20100113423A (ko) 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
WO2018090468A1 (zh) 视频节目的搜索方法和装置
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN112395851A (zh) 一种文本比对方法、装置、计算机设备及可读存储介质
CN107145538B (zh) 表格数据查询方法、装置与系统
CN115935944A (zh) 一种跨平台的标准文件树形结构生成方法与展示控件
US20080250068A1 (en) System for preparing reports
JP6677093B2 (ja) 表データ検索装置、表データ検索方法、及び表データ検索プログラム
JP2017146869A (ja) 情報検索プログラム及び情報検索装置
CN116136839B (zh) 法规文件花脸稿的生成方法、生成系统及相关设备
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
CN107145947B (zh) 一种信息处理方法、装置及电子设备
US20020174141A1 (en) Method and system for automated data manipulation in an electronic spreadsheet program or the like
JPH11306203A (ja) インデックス作成方法及び文書検索処理方法
CN1326073C (zh) 用于建立计算机文字信息的索引和进行检索的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant