CN112380838A - 一种基于大数据的专利文件智能标引方法及装置 - Google Patents

一种基于大数据的专利文件智能标引方法及装置 Download PDF

Info

Publication number
CN112380838A
CN112380838A CN202011180870.3A CN202011180870A CN112380838A CN 112380838 A CN112380838 A CN 112380838A CN 202011180870 A CN202011180870 A CN 202011180870A CN 112380838 A CN112380838 A CN 112380838A
Authority
CN
China
Prior art keywords
word
words
classification
text
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011180870.3A
Other languages
English (en)
Inventor
程艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Chanlue Technology Co ltd
Original Assignee
Wuhan Chanlue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Chanlue Technology Co ltd filed Critical Wuhan Chanlue Technology Co ltd
Priority to CN202011180870.3A priority Critical patent/CN112380838A/zh
Publication of CN112380838A publication Critical patent/CN112380838A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于大数据的专利文件智能标引方法及装置。包括:获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并提取对应的专利文本;设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词;建立TF‑IDF算法,根据TF‑IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频;根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。本发明通过利用检索分析词获取二级词语作为技术主题词,然后加上TF‑IDF算法能够精确计算出每篇专利文件中的技术主题词对应的词频,以此来自动确定每篇专利文本的技术主题,全程通过系统自动实现,极大程度节省了人力和时间。

Description

一种基于大数据的专利文件智能标引方法及装置
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种基于大数据的专利文件智 能标引方法及装置。
背景技术
随着时间的发展,专利信息的增长尤为迅速,专利信息的快速增长带来的 是信息超载,而对于用户来说,要从海量的专利信息数据中对专利的技术主题 进行分析标引无疑是一件相当费时费力的事情。
现有的专利分析标引的步骤如下,首先根据检索词汇从专利数据库中检索 同领域的专利数据,然后人为通过阅读大量专利文献来确定每个专利的技术主 题,并进行标引,这种方法需要耗费大量时间和人力,所以亟需对现有的专利 分析标引方法进行改进。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现 有技术。
发明内容
有鉴于此,本发明提出了一种基于大数据的专利文件智能标引方法及装 置,旨在解决现有技术无法实现自动对检索出的专利文件进行主题技术标引的 技术问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于大数据的专利文件智能标引方法,所述基 于大数据的专利文件智能标引方法包括以下步骤:
S1,获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并 提取对应的专利文本;
S2,设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应 的词语作为技术主题词;
S3,建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的 专利文本中所占比重作为该技术主题词的词频;
S4,根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。
在以上技术方案的基础上,优选的,步骤S1中,获取检索分析指令,根据 该检索分析指令对专利数据库进行检索,并提取对应的专利文本,还包括以下 步骤,获取检索分析指令,从该获取检索分析指令中提取检索分析词,根据该 检索分析词对专利数据库进行检索,获取对应的专利文本。
在以上技术方案的基础上,优选的,步骤S2中,设定主题分类词,根据该 主题分类词从同领域专利文本中标记出对应的词语作为技术主题词,还包括以 下步骤,根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类 词,根据该主题分类词对专利文本进行遍历,并标记出专利文本中对应的主题 分类词。
在以上技术方案的基础上,优选的,根据检索分析词获取与该检索分析词 同类别的二级词语作为主题分类词,根据该主题分类词对专利文本进行遍历, 并标记出专利文本中对应的主题分类词之后,还包括以下步骤,设定检索连词, 所述检索连词包括:包括以及含有,根据该检索连词对标记有主题分类词对应 的语句进行检索,当该语句存在检索连词时,提取出该检索连词对应的语句中 的所有词语,并对所有词语进行筛选,将筛选出的词语作为辅助分类词。
在以上技术方案的基础上,优选的,步骤S3中,建立TF-IDF算法,根据 TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主 题词的词频,还包括以下步骤,建立TF-IDF算法,通过TF-IDF算法统计出专 利文本中每个主题分类词的数量以及辅助分类词的数量,并计算出每个主题分 类词在对应专利文本中的词频以及每个辅助分类词在对应专利文本中的词频。
在以上技术方案的基础上,优选的,步骤S4中,根据技术主题词的词频确 定该专利文本对应的技术主题并进行标引,还包括以下步骤,记录每个主题分 类词的词频数值,并叠加每个主题分类词对应的辅助分类词的词频数值,获取 每个主题分类词的总词频数值,将每个主题分类词的总词频数值两两进行比较, 将总词频数值最大的主体分类词作为该专利文本对应的技术主题并进行标引。
在以上技术方案的基础上,优选的,步骤S4中,根据第一关键词和第二关 键词确定最终关键词作为待计算文本的索引关键词,并对该待计算文本进行标 记之后,还包括以下步骤,设定特殊分类词,所述特殊分类词包括:背景技术 以及有益效果,根据该特殊分类词在专利文本中查找对应文本,并从该文本中 提取词语作为待筛选词语,对该待筛选词语进行筛选,将筛选后的词语作为特 殊分类词对该专利文本进行标引。
更进一步优选的,所述基于大数据的专利文件智能标引装置包括:
获取模块,用于获取检索分析指令,根据该检索分析指令对专利数据库进 行检索,并提取对应的专利文本;
技术主题词确立模块,用于设定主题分类词,根据该主题分类词从同领域 专利文本中标记出对应的词语作为技术主题词;
计算模块,用于建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题 词在对应的专利文本中所占比重作为该技术主题词的词频;
标引模块,用于根据技术主题词的词频确定该专利文本对应的技术主题并 进行标引。
第二方面,所述基于大数据的专利文件智能标引方法还包括一种设备,所 述设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运 行的基于大数据的专利文件智能标引方法程序,所述基于大数据的专利文件智 能标引方法程序配置为实现如上文所述的基于大数据的专利文件智能标引方法 的步骤。
第三方面,所述基于大数据的专利文件智能标引方法还包括一种介质,所 述介质为计算机介质,所述计算机介质上存储有基于大数据的专利文件智能标 引方法程序,所述基于大数据的专利文件智能标引方法程序被处理器执行时实 现如上文所述的基于大数据的专利文件智能标引方法的步骤。
本发明的一种基于大数据的专利文件智能标引方法相对于现有技术具有以 下有益效果:
(1)通过将检索分析词同类别的二级词语作为主题分类词,系统可以通过主 题分类词直接对检索到的专利文本进行标记,不仅节省了人力成本,而且是将 检索分析词同类别的二级词语直接作为主题分类词,也提高了系统标引的精确 度。
(2)通过设定检索连词,对检索出来的专利文本进行二次检索,不仅可以检 索出主题分类词下的三级词语作为辅助分类词,同时也可以利用辅助分类词对 主题分类词进行辅助标引,提高了系统标引的精确度。
(3)通过建立TF-IDF算法,利用TF-IDF算法对每个主题分类词以及辅助分 类词在对应专利文本中的词频,能够很精确的计算出每个专利文本的主体技术, 并进行对应标引。
(4)通过设定特殊分类词,如:背景技术以及有益效果,能够增加系统对检 索出的专利标引的类别,提高系统进行专利标引的宽度,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例方案涉及的硬件运行环境的设备的结构示意图;
图2为本发明基于大数据的专利文件智能标引方法第一实施例的流程示意 图;
图3为本发明基于大数据的专利文件智能标引方法第一实施例的功能模块 示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、 完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是 全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出 创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,该设备可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存 储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口 1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户 接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以 包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接 口)。存储器1005可以是高速的随机存取存储器(Random AccessMemory, RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory, NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001 的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对设备的限定,在 实际应用中设备可以包括比图示更多或更少的部件,或者组合某些部件,或者 不同的部件布置。
如图1所示,作为一种介质的存储器1005中可以包括操作系统、网络通信 模块、用户接口模块以及基于大数据的专利文件智能标引方法程序。
在图1所示的设备中,网络接口1004主要用于建立设备与存储基于大数据 的专利文件智能标引方法系统中所需的所有数据的服务器的通信连接;用户接 口1003主要用于与用户进行数据交互;本发明基于大数据的专利文件智能标引 方法设备中的处理器1001、存储器1005可以设置在基于大数据的专利文件智能 标引方法设备中,所述基于大数据的专利文件智能标引方法设备通过处理器 1001调用存储器1005中存储的基于大数据的专利文件智能标引方法程序,并执 行本发明实施提供的基于大数据的专利文件智能标引方法。
结合图2,图2为本发明基于大数据的专利文件智能标引方法第一实施例的 流程示意图。
本实施例中,所述基于大数据的专利文件智能标引方法包括以下步骤:
S10:获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并 提取对应的专利文本。
应当理解的是,本实施会获取用户输入的检索分析指令,然后从检索分析 指令中提取对应的检索分析词,检索分析词一般是代表某一类的上位概念词, 比如:电池、算法、机械手臂以及新能源等词语,然后系统会根据检索分析词 对专利数据库进行检索,找到带有检索分析词的专利文本并导出,这一步能够 自动对专利文本进行检索,因为选取的检索词一般都是上位概念词,所以在进 行标引时,可以设定多个主题分类词进行标引,增加了标引的范围。
应当理解的是,因为是对专利进行智能标引,系统自动检索专利的过程可 能已经被标引人员做过了,所以系统这一步也可以直接从标引人员做好的检索 报告中直接提取检索分析词对应的专利文本,这样可以直接进入智能标引的过 程。
S20:设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应 的词语作为技术主题词。
应当理解的是,在得到需要进行标引的专利之后,系统会根据检索分析词 获取与该检索分析词同类别的二级词语作为主题分类词,比如:电池作为检索 分析词,那么系统根据电池得到的二级词语包括:干电池、锂电池以及铅蓄电 池等多种电池,又比如:将新能源作为检索分析词,那么系统根据新能源得到 的二级词语包括:太阳能、风能、地热能以及海洋能等。通过这样的方式设定 主题分类词,不仅能够很直观展现每篇专利对应的专利主题,而且每个主题分 类词还可能存在更下位概念词,能够对专利标引的精度和范围进行加强。
应当理解的是,在得到系统的主题分类词之后,系统会根据主题分类词对 专利文本的所有文字内容进行遍历,并标记出专利文本中含有主题分类词的位 置,此处的标记并不是标引,此处只是对文本中的主题分类词做个简单记号, 方便后续进行计算。
应当理解的是,为了增强主题分类词作为专利文本技术主题的精确度和可 靠性,系统会引入辅助分类词,用于对主题分类词进行辅助,辅助分类词即上 述实施例提到的每个主题分类词的更下位概念词。
应当理解的是,为了得到辅助分类词,系统会设定检索连词,所述检索连 词包括:包括以及含有等这类有包括意思的词语,系统会根据检索连词对标记 有主题分类词对应的语句进行检索,当该语句存在检索连词时,提取出该检索 连词对应的语句中的所有词语,并对所有词语进行筛选,将筛选出的词语作为 辅助分类词,具体实现方法如:干电池包括:锰、石墨棒、锌片、NH4Cl、ZnCl2及淀粉糊状物,那么此时系统会检索到包括这个词语,然后将整句话提取出来, 并提取出这句话中的每个词语,筛选出一些连词以及常用词之后,得到的最终 词语就是:干电池、锰、石墨棒、锌片、NH4Cl、ZnCl2、淀粉糊状物,此时系 统会通过主题分类词确定干电池为主题分类词,将锰、石墨棒、锌片、NH4Cl、 ZnCl2、淀粉糊状物这些词语作为辅助分类词,用于提高专利标引的精确度。
S30:建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的 专利文本中所占比重作为该技术主题词的词频。
应当理解的是,之后系统会建立TF-IDF算法,TF-IDF是一种统计方法, 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料 库中出现的频率成反比下降。
应当理解的是,系统会通过TF-IDF算法统计出专利文本中每个主题分类词 的数量以及辅助分类词的数量,并计算出每个主题分类词在对应专利文本中的 词频以及每个辅助分类词在对应专利文本中的词频。通过TF-IDF算法能够很精 确直观看出主题分类词与辅助分类词在每个专利文本中的占比情况即词频,根 据词频,系统可以精确判断出每个专利文本对应的主题技术。
S40:根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。
应当理解的是,为了确定每个专利文本的技术主题并进行标引,系统会统 计记录每个主题分类词的词频数值,然后记录每个主题分类词对应的辅助分类 词的词频数值,并将主题分类词的词频数值与其对应的辅助分类词的词频数值 进行叠加,得到一个总词频数值,将得到的总词频数值两两进行比较,比较出 数值最大的主题分类词,这个主题分类词即为当前专利文本的技术主题,并根 据这个主题分类词对当前专利进行标引,将当前专利归类到对应的区域。
应当理解的是,在确定了专利文本的技术主题之后,系统还可以对专利文 本的有益效果和技术问题进行标引,以此来增加系统智能标引的覆盖范围,具 体步骤如下:设定特殊分类词,所述特殊分类词包括:背景技术以及有益效果, 由于大多数专利格式相同,所以设定背景技术以及有益效果的特殊分类词可以 快速找到专利文本中的技术问题以及有益效果,但是有些专利并不会写明有益 效果,所以此时特殊分类词会增加:附图说明,通过对附图说明上一段文字进 行提取,来得到专利文件的有益效果。
应当理解的是,系统在专利文本中找到对应的特殊分类词之后,会提取对 应的文本,并从该文本中提取词语作为待筛选词语,对该待筛选词语进行筛选, 去掉一些常用词语以及连词等,得到最后的词语即可以作为特殊分类词对该专 利文本进行标引。
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限 定。
通过上述描述不难发现,本实施例通过获取检索分析指令,根据该检索分 析指令对专利数据库进行检索,并提取对应的专利文本;设定主题分类词,根 据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词;建立 TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所 占比重作为该技术主题词的词频;根据技术主题词的词频确定该专利文本对应 的技术主题并进行标引。本实施例通过利用检索分析词获取二级词语作为技术 主题词,然后加上TF-IDF算法能够精确计算出每篇专利文件中的技术主题词对 应的词频,以此来自动确定每篇专利文本的技术主题,全程通过系统自动实现, 极大程度节省了人力和时间。
此外,本发明实施例还提出一种基于大数据的专利文件智能标引装置。如 图3所示,该基于大数据的专利文件智能标引装置包括:获取模块10、技术主 题词确立模块20、计算模块30以及标引模块40。
获取模块,用于获取检索分析指令,根据该检索分析指令对专利数据库进 行检索,并提取对应的专利文本;
技术主题词确立模块,用于设定主题分类词,根据该主题分类词从同领域 专利文本中标记出对应的词语作为技术主题词;
计算模块,用于建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题 词在对应的专利文本中所占比重作为该技术主题词的词频;
标引模块,用于根据技术主题词的词频确定该专利文本对应的技术主题并 进行标引。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对 本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际 的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限 制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所 提供的基于大数据的专利文件智能标引方法,此处不再赘述。
此外,本发明实施例还提出一种介质,所述介质为计算机介质,所述计算 机介质上存储有基于大数据的专利文件智能标引方法程序,所述基于大数据的 专利文件智能标引方法程序被处理器执行时实现如下操作:
S1,获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并 提取对应的专利文本;
S2,设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应 的词语作为技术主题词;
S3,建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的 专利文本中所占比重作为该技术主题词的词频;
S4,根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。
进一步地,所述基于大数据的专利文件智能标引方法程序被处理器执行时 还实现如下操作:
获取检索分析指令,从该获取检索分析指令中提取检索分析词,根据该检 索分析词对专利数据库进行检索,获取对应的专利文本。
进一步地,所述基于大数据的专利文件智能标引方法程序被处理器执行时 还实现如下操作:
根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词, 根据该主题分类词对专利文本进行遍历,并标记出专利文本中对应的主题分类 词。
进一步地,所述基于大数据的专利文件智能标引方法程序被处理器执行时 还实现如下操作:
设定检索连词,所述检索连词包括:包括以及含有,根据该检索连词对标 记有主题分类词对应的语句进行检索,当该语句存在检索连词时,提取出该检 索连词对应的语句中的所有词语,并对所有词语进行筛选,将筛选出的词语作 为辅助分类词。
进一步地,所述基于大数据的专利文件智能标引方法程序被处理器执行时 还实现如下操作:
建立TF-IDF算法,通过TF-IDF算法统计出专利文本中每个主题分类词的 数量以及辅助分类词的数量,并计算出每个主题分类词在对应专利文本中的词 频以及每个辅助分类词在对应专利文本中的词频。
进一步地,所述基于大数据的专利文件智能标引方法程序被处理器执行时 还实现如下操作:
记录每个主题分类词的词频数值,并叠加每个主题分类词对应的辅助分类 词的词频数值,获取每个主题分类词的总词频数值,将每个主题分类词的总词 频数值两两进行比较,将总词频数值最大的主体分类词作为该专利文本对应的 技术主题并进行标引。
进一步地,所述基于大数据的专利文件智能标引方法程序被处理器执行时 还实现如下操作:
设定特殊分类词,所述特殊分类词包括:背景技术以及有益效果,根据该 特殊分类词在专利文本中查找对应文本,并从该文本中提取词语作为待筛选词 语,对该待筛选词语进行筛选,将筛选后的词语作为特殊分类词对该专利文本 进行标引。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。

Claims (10)

1.一种基于大数据的专利文件智能标引方法,其特征在于:包括以下步骤;
S1,获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并提取对应的专利文本;
S2,设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词;
S3,建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频;
S4,根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。
2.如权利要求1所述的基于大数据的专利文件智能标引方法,其特征在于:步骤S1中,获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并提取对应的专利文本,还包括以下步骤,获取检索分析指令,从该获取检索分析指令中提取检索分析词,根据该检索分析词对专利数据库进行检索,获取对应的专利文本。
3.如权利要求2所述的基于大数据的专利文件智能标引方法,其特征在于:步骤S2中,设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词,还包括以下步骤,根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词,根据该主题分类词对专利文本进行遍历,并标记出专利文本中对应的主题分类词。
4.如权利要求3所述的基于大数据的专利文件智能标引方法,其特征在于:根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词,根据该主题分类词对专利文本进行遍历,并标记出专利文本中对应的主题分类词之后,还包括以下步骤,设定检索连词,所述检索连词包括:包括以及含有,根据该检索连词对标记有主题分类词对应的语句进行检索,当该语句存在检索连词时,提取出该检索连词对应的语句中的所有词语,并对所有词语进行筛选,将筛选出的词语作为辅助分类词。
5.如权利要求4所述的基于大数据的专利文件智能标引方法,其特征在于:步骤S3中,建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频,还包括以下步骤,建立TF-IDF算法,通过TF-IDF算法统计出专利文本中每个主题分类词的数量以及辅助分类词的数量,并计算出每个主题分类词在对应专利文本中的词频以及每个辅助分类词在对应专利文本中的词频。
6.如权利要求5所述的基于大数据的专利文件智能标引方法,其特征在于:步骤S4中,根据技术主题词的词频确定该专利文本对应的技术主题并进行标引,还包括以下步骤,记录每个主题分类词的词频数值,并叠加每个主题分类词对应的辅助分类词的词频数值,获取每个主题分类词的总词频数值,将每个主题分类词的总词频数值两两进行比较,将总词频数值最大的主体分类词作为该专利文本对应的技术主题并进行标引。
7.如权利要求6所述的基于大数据的专利文件智能标引方法,其特征在于:步骤S4中,根据第一关键词和第二关键词确定最终关键词作为待计算文本的索引关键词,并对该待计算文本进行标记之后,还包括以下步骤,设定特殊分类词,所述特殊分类词包括:背景技术以及有益效果,根据该特殊分类词在专利文本中查找对应文本,并从该文本中提取词语作为待筛选词语,对该待筛选词语进行筛选,将筛选后的词语作为特殊分类词对该专利文本进行标引。
8.一种基于大数据的专利文件智能标引装置,其特征在于,所述基于大数据的专利文件智能标引装置包括:
获取模块,用于获取检索分析指令,根据该检索分析指令对专利数据库进行检索,并提取对应的专利文本;
技术主题词确立模块,用于设定主题分类词,根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词;
计算模块,用于建立TF-IDF算法,根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频;
标引模块,用于根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。
9.一种设备,其特征在于,所述设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的专利文件智能标引方法程序,所述基于大数据的专利文件智能标引方法程序配置为实现如权利要求1至7任一项所述的基于大数据的专利文件智能标引方法的步骤。
10.一种介质,其特征在于,所述介质为计算机介质,所述计算机介质上存储有基于大数据的专利文件智能标引方法程序,所述基于大数据的专利文件智能标引方法程序被处理器执行时实现如权利要求1至7任一项所述的基于大数据的专利文件智能标引方法的步骤。
CN202011180870.3A 2020-10-29 2020-10-29 一种基于大数据的专利文件智能标引方法及装置 Withdrawn CN112380838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011180870.3A CN112380838A (zh) 2020-10-29 2020-10-29 一种基于大数据的专利文件智能标引方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011180870.3A CN112380838A (zh) 2020-10-29 2020-10-29 一种基于大数据的专利文件智能标引方法及装置

Publications (1)

Publication Number Publication Date
CN112380838A true CN112380838A (zh) 2021-02-19

Family

ID=74577351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011180870.3A Withdrawn CN112380838A (zh) 2020-10-29 2020-10-29 一种基于大数据的专利文件智能标引方法及装置

Country Status (1)

Country Link
CN (1) CN112380838A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667691A (zh) * 2021-03-16 2021-04-16 中汽数据有限公司 基于数据库的专利标引方法、装置、设备和存储介质
CN113095039A (zh) * 2021-03-09 2021-07-09 智慧芽信息科技(苏州)有限公司 对文件自定义字段标引的处理方法、装置、服务器
CN113378512A (zh) * 2021-07-05 2021-09-10 中国科学技术信息研究所 一种基于自动标引的无级动态演化主题云图的生成方法
CN114706974A (zh) * 2021-09-18 2022-07-05 北京墨丘科技有限公司 一种技术问题信息挖掘方法、装置与存储介质
WO2024078105A1 (zh) * 2022-10-11 2024-04-18 智慧芽信息科技(苏州)有限公司 专利文献中的技术问题抽取方法及相关设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095039A (zh) * 2021-03-09 2021-07-09 智慧芽信息科技(苏州)有限公司 对文件自定义字段标引的处理方法、装置、服务器
CN112667691A (zh) * 2021-03-16 2021-04-16 中汽数据有限公司 基于数据库的专利标引方法、装置、设备和存储介质
CN113378512A (zh) * 2021-07-05 2021-09-10 中国科学技术信息研究所 一种基于自动标引的无级动态演化主题云图的生成方法
CN113378512B (zh) * 2021-07-05 2023-05-26 中国科学技术信息研究所 一种基于自动标引的无级动态演化主题云图的生成方法
CN114706974A (zh) * 2021-09-18 2022-07-05 北京墨丘科技有限公司 一种技术问题信息挖掘方法、装置与存储介质
WO2024078105A1 (zh) * 2022-10-11 2024-04-18 智慧芽信息科技(苏州)有限公司 专利文献中的技术问题抽取方法及相关设备

Similar Documents

Publication Publication Date Title
CN112380838A (zh) 一种基于大数据的专利文件智能标引方法及装置
CN107766371B (zh) 一种文本信息分类方法及其装置
CN112035653B (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
CN111026671B (zh) 测试用例集构建方法和基于测试用例集的测试方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
WO2017097231A1 (zh) 话题处理方法及装置
US10839205B2 (en) Automated classification and interpretation of life science documents
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN108090178B (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN107844493B (zh) 一种文件关联方法及系统
CN109726393B (zh) 一种基于自然语言处理技术的政策分析系统及方法
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN114003721A (zh) 矛盾纠纷事件类型分类模型的构建方法、装置及应用
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN104572720A (zh) 一种网页信息排重的方法、装置及计算机可读存储介质
CN112487263A (zh) 一种信息处理方法、系统、设备及计算机可读存储介质
CN115544975B (zh) 一种日志格式转换方法及设备
CN114238735B (zh) 一种互联网数据智能采集方法
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Kopliku et al. Attribute retrieval from relational web tables
CN111191126B (zh) 一种基于关键词的科技成果精准推送方法及装置
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN112559739A (zh) 电力设备绝缘状态数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210219