CN111782814A - 一种专利技术主题内容和热度演化的分析方法 - Google Patents
一种专利技术主题内容和热度演化的分析方法 Download PDFInfo
- Publication number
- CN111782814A CN111782814A CN202010699613.4A CN202010699613A CN111782814A CN 111782814 A CN111782814 A CN 111782814A CN 202010699613 A CN202010699613 A CN 202010699613A CN 111782814 A CN111782814 A CN 111782814A
- Authority
- CN
- China
- Prior art keywords
- ipc classification
- topic
- subject
- classification number
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 238000005065 mining Methods 0.000 claims abstract description 20
- 238000011160 research Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 4
- 230000018109 developmental process Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000007787 solid Substances 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于自然语言处理领域,具体涉及一种专利技术主题内容和热度演化的分析方法,包括以下步骤:按照专利和专利申请的申请时间,以年为单位划分专利文档集;对每个时间片的专利摘要文本分别进行分词、去停用词等预处理;设置待分析的IPC分类号层级和PLDA模型参数;使用PLDA模型进行主题挖掘,获取IPC分类下不同层级的专利技术主题信息;在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析。本发明利用了IPC分类号蕴含不同层级的专利技术信息这一特点,帮助技术研究人员从更细粒度了解某领域技术的发展状况,为技术进一步的创新发展提供了坚实的基础。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种专利技术主题内容和热度演化的分析方法。
背景技术
随着中国社会经济的发展以及国际地位的逐渐提升,人们对于知识产权的保护意识愈加强烈。知识产权保护是促进技术进步的重要制度安排,它影响到一个国家的自主创新、FDI流入、国际贸易及国际技术转移等诸多方面,并最终影响到经济增长。专利是知识产权中重要的一种表现形式。随着专利数据逐年增多,人们需要对专利数据进行深入分析研究,挖掘出有价值的信息,有助于促进创新。
由于目前专利数据的海量化,专利研究人员通过人力对某领域的专利文档进行阅读并提取技术信息的方法过于困难和低效,因此,在现阶段使用主题模型对专利进行深入的技术主题挖掘是至关重要的工作,如何准确且高效的对专利文本进行主题挖掘和主题演化分析,是目前研究人员需要关注的问题。
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是常见的主题挖掘模型,它能识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息,能够有效的提取专利的技术主题。然而基于LDA模型提取专利主题的方法虽易于实现,但是由于其模型的特性,只能对某领域专利进行全局的技术主题提取,不能从细粒度进行专利技术主题的挖掘和演化分析,更不能对专利的技术主题的演化按照时段进行分析。
PLDA(Partially Labeled Dirichlet Allocation)主题模型是一种针对有标记文档进行主题处理的模型,该模型相比于LDA主题模型结构增加了标签属性,使主题分布的结果展现在标签类别之下,可以得到较细粒度的主题演化结果。但是由于标签的特殊性,每个文档的标签都是相互独立的,在处理文档的过程中只能在固定的标签下进行主题提取和演化分析。
国际专利分类表(International Patent Classification,IPC)由世界知识产权组织(WIPO)发布,是专利研究人员最常用的检索工具,但是,在实际的检索过程中,使用IPC分类号检索得到的目标专利群数量一般较多,噪音较大,往往难以得到合适数量的目标专利文献。采用分类号初步检索可以极大缩小检索范围,为进一步检索提供基础。
因此,急需开发出一种可以充分利用IPC分类号的不同层级对专利的技术主题进行不同层级、更细粒度演化的分析方法,以更好地满足用户需求。
发明内容
针对现有技术中存在的不足,本发明的技术问题是提供一种专利技术主题内容和热度演化的分析方法,该方法可以对专利的技术主题进行更细粒度并随时段演化进行全面分析,有利于技术研究人员更快速的了解某领域技术的发展状况,能够为技术创新提供坚实的基础。
本发明解决上述技术问题的方案是:
一种专利技术主题内容和热度演化的分析方法,包括以下步骤:
S1、按照专利和专利申请的申请时间,以年为单位划分专利文档集,得到不同时间片的专利文档集;
S2、使用jieba分词工具对所述的专利文档集中的每篇文档的摘要文本进行分词,并使用哈工大提供的中文停用词表,对摘要文本进行过滤,得到处理后的摘要文本;
S3、设置待分析的IPC分类号层级和PLDA模型参数;
以IPC分类号的位数作为待分析的IPC层级;设置PLDA模型的超参数α=0.1,β=0.01;选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数,并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目;困惑度值Perplexity(D)的计算公式如下:
p(w)=p(z|d)*p(w|z) (2)
其中,p(z|d)表示专利文档集中的某个文档中,某个主题出现的概率;p(w|z)表示某个词语在某个主题下出现的概率;
S4、将所述的处理后的摘要文本和IPC分类号作为PLDA模型输入,使用PLDA模型进行主题挖掘,以获取IPC分类下不同层级的专利技术主题信息:
由于专利和专利申请可能包含多个IPC分类号,所以将摘要文本和IPC分类号组成集合列表LabelDocumentList={{l1,l2,...,d1},{l1,l2,...,d2},...,{l1,l2,...,dm}}作为PLDA模型的数据输入,其中,d1...dm表示m个摘要文本,l1,l2...表示每个摘要文本对应的IPC分类号,即将专利文档集中的每个文档的IPC分类号都作为该文档的标签;
利用PLDA模型分别处理每一个时间片中的LabelDocumentList集合列表,进行IPC分类号下的主题挖掘;PLDA模型通过采样方式生成专利文档集中的每个文档的词语和标签,其概率生成公式如下:
其中Λd表示专利文档集中的文档d中的标签;Kj表示标签j下的主题数;Vη表示所有词语集合V下的先验参数;α表示对称的狄利克雷先验参数;指所述的文档d的i位置词语中的主题z和标签l的当前分配之外的对应计数;nd,j,k,.表示标签j和主题k在文档d中出现的次数;
根据上述PLDA模型的主题挖掘过程,得到IPC分类号下不同层级的专利技术主题信息结果,所述的结果的展现方式为IPC分类下不同层级的主题-词语概率分布和文档-主题概率分布;
S5、在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析;
(1)根据所述的主题-词语概率分布,取此分布占比前N位的词语,作为主题的主要含义,从而得到IPC分类号下的主题内容信息,通过词云技术展示不同时间片IPC分类号下的主题词内容,得到IPC分类号下不同层级的主题内容随时间推移的演化情况;
(2)根据所述的文档-主题概率分布,计算某主题在某时间片的主题强度,其计算公式如下:
其中,θd,k表示同一时间片内的文档d中包含第k个主题的比例,Dt为第t个时间片内的文本数;
所述的主题强度描述某主题在某时间片中的活跃程度,在同一时间片中该主题强度值越大,说明主题热度越高,受到的关注程度越高;
通过IPC分类号下不同层级的某专利主题内容随时间推移的演化情况和该主题在某时间片中的主题强度值,即可以得到IPC分类号下不同层级的某专利主题研究热度的变化趋势。
相较于现有技术,本发明所公开的一种专利技术主题内容和热度演化的分析方法具有如下有益效果:
(1)本发明在主题挖掘过程中,使用PLDA模型进行文本主题挖掘,并结合专利的IPC分类号和摘要文本信息进行处理,通过设置将要分析的IPC分类号层级,可以在不同层级下进行主题挖掘,产生不同IPC层级分类下的技术主题信息,以更好地满足用户需求。
(2)本发明在主题挖掘结果展示中,由于IPC分类号中每个层级代表的技术含义不同,所以IPC分类下的技术主题挖掘结果更能细粒度的表达技术信息的分布。
(3)本发明在主题演化分析过程中,通过词云技术展示不同时间片IPC分类下的主题词内容,研究IPC分类下的主题内容随时间推移的演化情况。通过计算不同时间片中IPC分类下的主题强度值和IPC分类下主题强度的演化趋势,可以得到IPC分类下该主题的研究热度变化趋势。
附图说明
图1为本发明所公开的一种专利技术主题内容和热度演化的分析方法的步骤框图。
具体实施方式
下面结合附图对本发明作进一步说明。
实施例1
参见图1,本实例的专利技术主题演化分析方法包括以下步骤。
S1、按照专利和专利申请的申请时间,以年为单位划分专利文档集,得到不同时间片的专利文档集;
S2、使用jieba分词工具对所述的专利文档集中的每篇文档的摘要文本进行分词,并使用哈工大提供的中文停用词表,对摘要文本进行过滤,得到处理后的摘要文本;
S3、设置待分析的IPC分类号层级和PLDA模型参数;
为了对专利数据进行更细粒度的技术主题挖掘,设置待分析的IPC分类号层级,由于IPC分类号中每个层级代表的技术含义不同,且本发明的主要目的是分析不同IPC层级下的技术主题演化情况,所以需确定待分析的IPC分类号层级,即IPC的位数,例如IPC的前三位代表着大类层级;设置PLDA模型的超参数α=0.1,β=0.01;选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数,并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目;困惑度值Perplexity(D)的计算公式如下:
p(w)=p(z|d)*p(w|z) (2)
其中,p(z|d)表示专利文档集中的某个文档中,某个主题出现的概率;p(w|z)表示某个词语在某个主题下出现的概率;
S4、将所述的处理后的摘要文本和IPC分类号作为PLDA模型输入,使用PLDA模型进行主题挖掘,以获取IPC分类下不同层级的专利技术主题信息:
由于专利和专利申请可能包含多个IPC分类号,所以将摘要文本和IPC分类号组成集合列表LabelDocumentList={{l1,l2,...,d1},{l1,l2,...,d2},...,{l1,l2,...,dm}}作为PLDA模型的数据输入,其中,d1...dm表示m个摘要文本,l1,l2...表示每个摘要文本对应的IPC分类号,即将每个专利的IPC分类号都作为专利的标签;
利用PLDA模型分别处理每一个时间片中的LabelDocumentList集合列表,进行IPC分类号下的主题挖掘;PLDA模型通过采样方式生成专利文档集中的每个文档的词语和标签,其概率生成公式如下:
其中Λd表示专利文档集中的文档d中的标签;Kj表示标签j下的主题数;Vη表示所有词语集合V下的先验参数;α表示对称的狄利克雷先验参数;指所述的文档d的i位置词语中的主题z和标签l的当前分配之外的对应计数;nd,j,k,.表示标签j和主题k在文档d中出现的次数;
根据上述PLDA模型的主题挖掘过程,得到IPC分类号下不同层级的专利技术主题信息结果,所述的结果的展现方式为IPC分类下不同层级的主题-词语概率分布和文档-主题概率分布;
S5、在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析;
(1)根据所述的主题-词语概率分布,取此分布占比前N位的词语,作为主题的主要含义,从而得到IPC分类号下的主题内容信息,通过词云技术展示不同时间片IPC分类号下的主题词内容,得到IPC分类号下不同层级的主题内容随时间推移的演化情况;
(2)根据所述的文档-主题概率分布,计算某主题在某时间片的主题强度,其计算公式如下:
其中,θd,k表示同一时间片内的文档d中包含第k个主题的比例,Dt为第t个时间片内的文本数;
所述的主题强度描述某主题在某时间片中的活跃程度,在同一时间片中该主题强度值越大,说明主题热度越高,受到的关注程度越高;
通过IPC分类号下不同层级的某专利主题内容随时间推移的演化情况和该主题在某时间片中的主题强度值,即可以得到IPC分类号下不同层级的某专利主题研究热度变化趋势。
Claims (1)
1.一种专利的主题内容及其热度演化的分析方法,该方法包括如下步骤:
S1、按照专利和专利申请的申请时间,以年为单位划分专利文档集,得到不同时间片的专利文档集;
S2、使用jieba分词工具对所述的专利文档集中的每篇文档的摘要文本进行分词,并使用哈工大提供的中文停用词表,对摘要文本进行过滤,得到处理后的摘要文本;
S3、设置待分析的IPC分类号层级和PLDA模型参数;
以IPC分类号的位数作为待分析的IPC层级;设置PLDA模型的超参数α=0.1,β=0.01;选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数,并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目;困惑度值Perplexity(D)的计算公式如下:
p(w)=p(z|d)*p(w|z) (2)
其中,p(z|d)表示专利文档集中的某个文档中,某个主题出现的概率;p(w|z)表示某个词语在某个主题下出现的概率;
S4、将所述的处理后的摘要文本和IPC分类号作为PLDA模型输入,使用PLDA模型进行主题挖掘,以获取IPC分类下不同层级的专利技术主题信息:
由于专利和专利申请可能包含多个IPC分类号,所以将摘要文本和IPC分类号组成集合列表LabelDocumentList={{l1,l2,...,d1},{l1,l2,...,d2},...,{l1,l2,...,dm}}作为PLDA模型的数据输入,其中,d1...dm表示m个摘要文本,l1,l2...表示每个摘要文本对应的IPC分类号,即将专利文档集中的每个文档的IPC分类号都作为该文档的标签;
利用PLDA模型分别处理每一个时间片中的LabelDocumentList集合列表,进行IPC分类号下的主题挖掘;PLDA模型通过采样方式生成专利文档集中的每个文档的词语和标签,其概率生成公式如下:
其中Λd表示专利文档集中的文档d中的标签;Kj表示标签j下的主题数;Vη表示所有词语集合V下的先验参数;α表示对称的狄利克雷先验参数;指所述的文档d的i位置词语中的主题z和标签l的当前分配之外的对应计数;nd,j,k,.表示标签j和主题k在文档d中出现的次数;
根据上述PLDA模型的主题挖掘过程,得到IPC分类号下不同层级的专利技术主题信息结果,所述的结果的展现方式为IPC分类下不同层级的主题-词语概率分布和文档-主题概率分布;
S5、在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析;
(1)根据所述的主题-词语概率分布,取此分布占比前N位的词语,作为主题的主要含义,从而得到IPC分类号下的主题内容信息,通过词云技术展示不同时间片IPC分类号下的主题词内容,得到IPC分类号下不同层级的主题内容随时间推移的演化情况;
(2)根据所述的文档-主题概率分布,计算某主题在某时间片的主题强度,其计算公式如下:
其中,θd,k表示同一时间片内的文档d中包含第k个主题的比例,Dt为第t个时间片内的文本数;
所述的主题强度描述某主题在某时间片中的活跃程度,在同一时间片中该主题强度值越大,说明主题热度越高,受到的关注程度越高;
通过IPC分类号下不同层级的某专利主题内容随时间推移的演化情况和该主题在某时间片中的主题强度值,即可以得到IPC分类号下不同层级的某专利主题研究热度的变化趋势。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699613.4A CN111782814B (zh) | 2020-07-17 | 2020-07-17 | 一种专利技术主题内容和热度演化的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699613.4A CN111782814B (zh) | 2020-07-17 | 2020-07-17 | 一种专利技术主题内容和热度演化的分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782814A true CN111782814A (zh) | 2020-10-16 |
CN111782814B CN111782814B (zh) | 2023-11-10 |
Family
ID=72764328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010699613.4A Active CN111782814B (zh) | 2020-07-17 | 2020-07-17 | 一种专利技术主题内容和热度演化的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782814B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966494A (zh) * | 2021-03-03 | 2021-06-15 | 浪潮云信息技术股份公司 | 一种基于领域专利数据的技术创新主题挖掘方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130117766A1 (en) * | 2004-07-12 | 2013-05-09 | Daniel H. Bax | Fabric-Backplane Enterprise Servers with Pluggable I/O Sub-System |
CN108288471A (zh) * | 2017-01-09 | 2018-07-17 | 三星电子株式会社 | 用于识别语音的电子设备 |
CN109710936A (zh) * | 2018-12-27 | 2019-05-03 | 中电科大数据研究院有限公司 | 一种跨层级政府公文公告主题分析方法 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
-
2020
- 2020-07-17 CN CN202010699613.4A patent/CN111782814B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130117766A1 (en) * | 2004-07-12 | 2013-05-09 | Daniel H. Bax | Fabric-Backplane Enterprise Servers with Pluggable I/O Sub-System |
CN108288471A (zh) * | 2017-01-09 | 2018-07-17 | 三星电子株式会社 | 用于识别语音的电子设备 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN109710936A (zh) * | 2018-12-27 | 2019-05-03 | 中电科大数据研究院有限公司 | 一种跨层级政府公文公告主题分析方法 |
Non-Patent Citations (1)
Title |
---|
廖列法;勒孚刚;: "基于LDA模型和分类号的专利技术演化研究", 现代情报, no. 05 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966494A (zh) * | 2021-03-03 | 2021-06-15 | 浪潮云信息技术股份公司 | 一种基于领域专利数据的技术创新主题挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111782814B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hidayat et al. | Sentiment analysis of twitter data related to Rinca Island development using Doc2Vec and SVM and logistic regression as classifier | |
López-Robles et al. | Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017 | |
CN111373392B (zh) | 文献分类装置 | |
CN101794311A (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN102194013A (zh) | 一种基于领域知识的短文本分类方法及文本分类系统 | |
CN112100999B (zh) | 一种简历文本相似度匹配方法和系统 | |
CN111737421A (zh) | 一种知识产权大数据情报检索系统及存储介质 | |
CN109784387A (zh) | 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 | |
Gao et al. | The intellectual structure of digital humanities: An author co-citation analysis | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
TWI828928B (zh) | 高擴展性、多標籤的文本分類方法和裝置 | |
CN107330111A (zh) | 基于通用形式化本体的领域本体的检索方法及装置 | |
CN112579784B (zh) | 一种基于深度强化学习的云边协同文档分类系统及方法 | |
CN111782814B (zh) | 一种专利技术主题内容和热度演化的分析方法 | |
CN112861530A (zh) | 一种基于文本挖掘的课程设置分析方法 | |
Brdiczka | From documents to tasks: deriving user tasks from document usage patterns | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
Shen et al. | A cross-database comparison to discover potential product opportunities using text mining and cosine similarity | |
CN106897436B (zh) | 一种基于变分推断的学术研究热点关键词提取方法 | |
CN109977227B (zh) | 基于特征编码的文本特征提取方法、系统、装置 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN112784040A (zh) | 基于语料库的垂直行业文本分类方法 | |
Kumar et al. | Using text analysis to study doctoral-level library and information science research trends in India | |
Al-Mutairi et al. | Predicting the Popularity of Trending Arabic Wikipedia Articles Based on External Stimulants Using Data/Text Mining Techniques | |
Yau et al. | Detection of topic on health news in twitter data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |