CN112464648B - 基于多源数据分析的行业标准空白特征识别系统及方法 - Google Patents
基于多源数据分析的行业标准空白特征识别系统及方法 Download PDFInfo
- Publication number
- CN112464648B CN112464648B CN202011323540.5A CN202011323540A CN112464648B CN 112464648 B CN112464648 B CN 112464648B CN 202011323540 A CN202011323540 A CN 202011323540A CN 112464648 B CN112464648 B CN 112464648B
- Authority
- CN
- China
- Prior art keywords
- industry standard
- classification
- paper
- technical
- frequency characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多源数据分析的行业标准空白特征识别系统,它的数据库得到专利和论文高频特征词组集合;技术领域划分模块得到检索出的专利和论文数据所包含的各个技术方向分类;聚类模块获取各个技术方向分类下的专利和论文高频特征词组集合;数据库得到各个技术方向分类下的行业标准高频特征词组集合;识别模块得到相同技术方向分类下专利和论文高频特征词组集合中不属于行业标准高频特征词组集合的特征词组。本发明实现了快速准确的行业标准中的空白技术特征识别。
Description
技术领域
本发明涉及信息处理技术领域,具体地指一种基于多源数据分析的行业标准空白特征识别系统及方法。
背景技术
近年来,由于行业标准在国内外产品市场份额的影响力不断提高,通过制定标准来占有市场份额并扩大国内外行业影响力的手段已经被越来越多的企业所采用。随着标准化制定工作愈加受到重视,企业参与标准制定的意愿比以往更加强烈。更多的企业在通过专利保护自身知识产权之外,更有意识地参与各层级、各类型标准的制定,以达到从顶层开始占据市场份额优势的目的。
专利和行业标准相比两者在属性上是有所区别的:专利多为比较超前的技术,不一定是实际应用较为广泛的技术;而标准则代表比较成熟的技术,技术应用相对是比较广泛的。专利体现的是企业的技术创新能力,但若缺乏标准同步保障专利技术的应用,即使再创新也有可能因标准限制而丢失自身产品的市场份额。因此,企业发展不能单靠申请专利保护自身知识产权权益,还要依靠牵头或参与制定标准来保护自身市场优势。
目前对行业标准中的空白部分的识别均是采用人工识别的方式,识别效率低,识别结果不准确。
发明内容
本发明的目的就是要提供一种基于多源数据分析的行业标准空白特征识别系统及方法,本发明实现了快速准确的行业标准中的空白技术特征识别。
为实现此目的,本发明所设计的基于多源数据分析的行业标准空白特征识别系统,其特征在于:包括数据库、技术领域划分模块、聚类模块和识别模块;其中,数据库用于根据起始检索关键词进行专利数据和论文数据的检索,并根据检索结果利用词频分析法得到在检索出的专利和论文数据中实意词组出现频率,选取其中出现频率前A%的词组形成专利和论文高频特征词组集合;
技术领域划分模块用于对检索出的专利和论文数据根据预设的分类标准利用机器学习方法进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类;
聚类模块用于利用各个技术方向分类对专利和论文高频特征词组集合进行主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合;
数据库利用各个技术方向分类在行业标准数据库中进行检索,得到各个技术方向分类下的行业标准库,利用起始检索关键词在各个技术方向分类下的行业标准库中进行检索,并根据检索结果利用词频分析法得到各个技术方向分类下的行业标准中实意词组出现频率,选取其中出现频率前B%的词组作为各个技术方向分类下的行业标准高频特征词组集合;
识别模块用于将各个技术方向分类下的专利和论文高频特征词组集合分别与对应技术方向分类下的行业标准高频特征词组集合进行对比,得到相同技术方向分类下专利和论文高频特征词组集合中不属于行业标准高频特征词组集合的特征词组。
本发明的有益效果:国内目前对标准空白点辨识方法及系统的研究较少,现有方法主要是动员相关领域专家进行相关技术领域评估分析。但对于各类新兴技术而言,在识别上难以达成专家共识,其辨识结果的主观性与随机性存在争议,通用性也较为不足。本专利建立了以多源数据为主的科学化辨识方法,通过机器学习、统计分析等方法,处理全领域海量论文专利数据,深度挖掘其文本信息,结合领域专家先验知识进行结果优化,在此过程中充分发挥文本数据挖掘和专家知识的优势,兼顾了标准空白点的辨识效率与科学性、准确性。
附图说明
图1为本发明的结构示意图。
其中,1—检索词选定模块、2—数据库、3—技术领域划分模块、4—聚类模块、5—识别模块。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细说明:
如图1所示一种基于多源数据分析的行业标准空白特征识别系统,如图1所示,包括数据库2、技术领域划分模块3、聚类模块4和识别模块5;其中,数据库2用于根据起始检索关键词进行专利数据和论文数据的检索,并根据检索出的专利和论文数据利用词频分析法得到在检索出的专利和论文数据中实意词组出现频率,选取检索出的专利和论文数据中出现频率前A%的词组形成专利和论文高频特征词组集合,本模块将论文、专利文本类型的摘要信息进行碎片化,以便机器学习、文本聚类方法进行后续的分析;
技术领域划分模块3用于对检索出的专利和论文数据根据预设的分类标准利用机器学习方法进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类,本模块将论文专利高频词组,按类别进行合并,为文本聚类提供数据集;将计算得到的分类结果交由专家小组进行修正,在这一过程中,降低了主观偏误性,提高了主题建模的有效性,并进一步挖掘关键技术的二级方向,为识别出的关键技术提供更有效的支撑;
聚类模块4用于利用各个技术方向分类对专利和论文高频特征词组集合进行主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合,本模块实现了高频特征词组集合归类的智能化与自动化,大幅提升了文本分析归类效率;
数据库2利用各个技术方向分类在行业标准数据库中进行检索,得到各个技术方向分类下的行业标准库,利用起始检索关键词在各个技术方向分类下的行业标准库中进行检索,并根据检索结果利用词频分析法得到各个技术方向分类下的行业标准中实意词组出现频率,选取各个技术方向分类下的行业标准中实意词组中出现频率前B%的词组作为各个技术方向分类下的行业标准高频特征词组集合,本模块将专利文本类型的摘要信息进行碎片化,获取高频特征词组辨识,方便识别模块进行对比;
识别模块5用于将各个技术方向分类下的专利和论文高频特征词组集合分别与对应技术方向分类下的行业标准高频特征词组集合进行对比,得到相同技术方向分类下专利和论文高频特征词组集合中不属于行业标准高频特征词组集合的特征词组,本模块利用词频分析方法,实现“专利论文-行业标准”技术的快速对比,为专利空白点辨识提供直接依据。
上述技术方案中,它还包括检索词选定模块1,所述检索词选定模块1用于将选定主技术领域的名称形成起始检索关键词。
上述技术方案中,所述聚类模块4中还用于利用德尔菲法对各个技术方向分类下的专利和论文高频特征词组集合进行修正,删除不属于集合的专利和论文高频特征词组。
上述技术方案中,所述A%和B%均为30%,兼顾文本分类的工作量与准确度。
上述技术方案中,技术领域划分模块3用于对检索出的专利和论文数据根据预设的分类标准利用机器学习中的支持向量机分类方法进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类。
上述技术方案中,聚类模块4用于利用各个技术方向分类对专利和论文高频特征词组集合进行语义识别,并根据文本聚类的方式实现主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合。
一种基于多源数据分析的行业标准空白特征识别方法,它包括如下步骤:
步骤1:数据库2根据起始检索关键词进行专利数据和论文数据的检索,并根据检索出的专利和论文数据利用词频分析法得到在检索出的专利和论文数据中实意词组出现频率,选取在检索出的专利和论文数据中实意词组中出现频率前A%的词组形成专利和论文高频特征词组集合;
步骤2:技术领域划分模块3对检索出的专利和论文数据根据预设的分类标准利用机器学习方法进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类;
步骤3:聚类模块4利用各个技术方向分类对专利和论文高频特征词组集合进行主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合;
步骤4:数据库2利用各个技术方向分类在行业标准数据库中进行检索,得到各个技术方向分类下的行业标准库,利用起始检索关键词在各个技术方向分类下的行业标准库中进行检索,并根据检索结果利用词频分析法得到各个技术方向分类下的行业标准中实意词组出现频率,选取其中出现频率前B%的词组作为各个技术方向分类下的行业标准高频特征词组集合;
步骤5:识别模块5将各个技术方向分类下的专利和论文高频特征词组集合分别与对应技术方向分类下的行业标准高频特征词组集合进行对比,得到相同技术方向分类下专利和论文高频特征词组集合中不属于行业标准高频特征词组集合的特征词组,将其认定为行业标准空白特征,从而排除已发布标准的新兴技术,获取未涉及相关标准的新兴技术。
上述技术方案的步骤1中,检索词选定模块1将选定主技术领域的名称形成起始检索关键词。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于多源数据分析的行业标准空白特征识别系统,其特征在于:包括数据库(2)、技术领域划分模块(3)、聚类模块(4)和识别模块(5);其中,数据库(2)用于根据起始检索关键词进行专利数据和论文数据的检索,并根据检索结果得到在检索出的专利和论文数据中实意词组出现频率,选取其中出现频率前A%的词组形成专利和论文高频特征词组集合;
技术领域划分模块(3)用于对检索出的专利和论文数据根据预设的分类标准进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类;
聚类模块(4)用于利用各个技术方向分类对专利和论文高频特征词组集合进行主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合;
数据库(2)利用各个技术方向分类在行业标准数据库中进行检索,得到各个技术方向分类下的行业标准库,利用起始检索关键词在各个技术方向分类下的行业标准库中进行检索,并根据检索结果得到各个技术方向分类下的行业标准中实意词组出现频率,选取其中出现频率前B%的词组作为各个技术方向分类下的行业标准高频特征词组集合;
识别模块(5)用于将各个技术方向分类下的专利和论文高频特征词组集合分别与对应技术方向分类下的行业标准高频特征词组集合进行对比,得到相同技术方向分类下专利和论文高频特征词组集合中不属于行业标准高频特征词组集合的特征词组。
2.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:它还包括检索词选定模块(1),所述检索词选定模块(1)用于将选定主技术领域的名称形成起始检索关键词。
3.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:所述聚类模块(4)中还用于利用德尔菲法对各个技术方向分类下的专利和论文高频特征词组集合进行修正,删除不属于集合的专利和论文高频特征词组。
4.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:所述A%和B%均为30%。
5.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:技术领域划分模块(3)用于对检索出的专利和论文数据根据预设的分类标准利用机器学习中的支持向量机分类方法进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类。
6.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:聚类模块(4)用于利用各个技术方向分类对专利和论文高频特征词组集合进行语义识别,并根据文本聚类的方式实现主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合。
7.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:所述数据库(2)用于根据起始检索关键词进行专利数据和论文数据的检索,并根据检索结果利用词频分析法得到在检索出的专利和论文数据中实意词组出现频率。
8.根据权利要求1所述的基于多源数据分析的行业标准空白特征识别系统,其特征在于:所述数据库(2)利用利用起始检索关键词在各个技术方向分类下的行业标准库中进行检索,并根据检索结果利用词频分析法得到各个技术方向分类下的行业标准中实意词组出现频率。
9.一种基于多源数据分析的行业标准空白特征识别方法,其特征在于,它包括如下步骤:
步骤1:数据库(2)根据起始检索关键词进行专利数据和论文数据的检索,并根据检索结果得到在检索出的专利和论文数据中实意词组出现频率,选取其中出现频率前A%的词组形成专利和论文高频特征词组集合;
步骤2:技术领域划分模块(3)对检索出的专利和论文数据进行分类,得到检索出的专利和论文数据所包含的各个技术方向分类;
步骤3:聚类模块(4)利用各个技术方向分类对专利和论文高频特征词组集合进行主题聚类,获取各个技术方向分类下的专利和论文高频特征词组集合;
步骤4:数据库(2)利用各个技术方向分类在行业标准数据库中进行检索,得到各个技术方向分类下的行业标准库,利用起始检索关键词在各个技术方向分类下的行业标准库中进行检索,并根据检索结果得到各个技术方向分类下的行业标准中实意词组出现频率,选取其中出现频率前B%的词组作为各个技术方向分类下的行业标准高频特征词组集合;
步骤5:识别模块(5)将各个技术方向分类下的专利和论文高频特征词组集合分别与对应技术方向分类下的行业标准高频特征词组集合进行对比,得到相同技术方向分类下专利和论文高频特征词组集合中不属于行业标准高频特征词组集合的特征词组。
10.根据权利要求9所述的基于多源数据分析的行业标准空白特征识别方法,其特征在于,所述步骤1中,检索词选定模块(1)将选定主技术领域的名称形成起始检索关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011323540.5A CN112464648B (zh) | 2020-11-23 | 2020-11-23 | 基于多源数据分析的行业标准空白特征识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011323540.5A CN112464648B (zh) | 2020-11-23 | 2020-11-23 | 基于多源数据分析的行业标准空白特征识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464648A CN112464648A (zh) | 2021-03-09 |
CN112464648B true CN112464648B (zh) | 2023-08-18 |
Family
ID=74798503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011323540.5A Active CN112464648B (zh) | 2020-11-23 | 2020-11-23 | 基于多源数据分析的行业标准空白特征识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464648B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627535A (zh) * | 2021-08-12 | 2021-11-09 | 福建中信网安信息科技有限公司 | 基于数据安全和隐私保护的数据分级分类系统与方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020274A (zh) * | 2012-12-27 | 2013-04-03 | 国网信息通信有限公司 | 文献分析方法和系统 |
CN111626694A (zh) * | 2020-05-06 | 2020-09-04 | 扬州云创科技信息有限公司 | 一种知识产权大数据信息服务平台 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160104077A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | System and Method for Extracting Table Data from Text Documents Using Machine Learning |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
-
2020
- 2020-11-23 CN CN202011323540.5A patent/CN112464648B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020274A (zh) * | 2012-12-27 | 2013-04-03 | 国网信息通信有限公司 | 文献分析方法和系统 |
CN111626694A (zh) * | 2020-05-06 | 2020-09-04 | 扬州云创科技信息有限公司 | 一种知识产权大数据信息服务平台 |
Non-Patent Citations (1)
Title |
---|
专利检索中的非专利信息检索;苏余鹏;李锦弟;;中国科技信息(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464648A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102915299B (zh) | 一种分词方法及装置 | |
CN106294762B (zh) | 一种基于学习的实体识别方法 | |
Shahana et al. | Survey on feature subset selection for high dimensional data | |
WO2017020454A1 (zh) | 检索方法和装置 | |
CN101826099A (zh) | 一种相似文档识别、文档扩散度确定的方法及系统 | |
CN1629837A (zh) | 电子文档的处理、浏览及分类查询的方法、装置及其系统 | |
CN103559193A (zh) | 一种基于选择单元的主题建模方法 | |
CN112464648B (zh) | 基于多源数据分析的行业标准空白特征识别系统及方法 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
US20230401249A1 (en) | Document classification method and apparatus, and electronic device | |
EP3835993A3 (en) | Keyword extraction method, apparatus and medium | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN117093260A (zh) | 一种基于决策树分类算法的融合模型网站结构解析方法 | |
CN116610810A (zh) | 基于调控云知识图谱血缘关系的智能搜索方法及系统 | |
CN109101480B (zh) | 一种企业名称的切分方法、装置及计算机可读存储介质 | |
CN108197295B (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
CN112148359B (zh) | 一种基于子块过滤的分布式代码克隆检测与搜索方法、系统及介质 | |
CN110555199A (zh) | 基于热点素材的文章生成方法、装置、设备及存储介质 | |
CN112507070A (zh) | 一种知识产权分类检索系统 | |
CN111538839A (zh) | 一种基于杰卡德距离的实时文本聚类方法 | |
Yarovii et al. | Improving the Accuracy of Text Message Recognition with an Intelligent Chatbot Information System | |
Zhang et al. | A discretization algorithm based on Gini criterion | |
Bodenhofer et al. | Special issue on soft computing for information mining | |
CN114417828A (zh) | 一种服务器告警日志描述文本的实体关系抽取方法及系统 | |
CN112464063A (zh) | 一种基于Hadoop的新浪微博水军识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |