CN114706974A - 一种技术问题信息挖掘方法、装置与存储介质 - Google Patents
一种技术问题信息挖掘方法、装置与存储介质 Download PDFInfo
- Publication number
- CN114706974A CN114706974A CN202111100957.XA CN202111100957A CN114706974A CN 114706974 A CN114706974 A CN 114706974A CN 202111100957 A CN202111100957 A CN 202111100957A CN 114706974 A CN114706974 A CN 114706974A
- Authority
- CN
- China
- Prior art keywords
- technical problem
- sentences
- beneficial effect
- sentence
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000005065 mining Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 230000009286 beneficial effect Effects 0.000 claims abstract description 116
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 23
- 238000013145 classification model Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 abstract description 5
- 210000003128 head Anatomy 0.000 description 27
- 230000000694 effects Effects 0.000 description 17
- 210000000613 ear canal Anatomy 0.000 description 12
- 230000004044 response Effects 0.000 description 9
- 238000007789 sealing Methods 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 101001010782 Drosophila melanogaster Fez family zinc finger protein erm Proteins 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 238000009413 insulation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000003208 petroleum Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 239000004033 plastic Substances 0.000 description 3
- 229920003023 plastic Polymers 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 229910000639 Spring steel Inorganic materials 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种技术问题信息挖掘方法、装置与存储介质。其中,该方法包括:对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句,根据提取出来技术问题句再抽取相对应的有益效果语句,根据提取出来技术问题句与对应有益效果语句进行分类训练,为技术问题赋予语义标签。从而抽取出来的技术问题片段更加容易理解,并且也提高了技术问题挖掘的效率,同时根据提取出来技术问题句与对应有益效果的语句进行分类训练,统一了技术问题定义的标准。
Description
技术领域
本申请涉及人工智能领域,具体涉及一种技术问题信息挖掘方法、装置与存储介质。
背景技术
随着科技的进步与发展,对科技领域的文献信息获取方式也呈多样化,传统获取文献中的技术问题信息是通过阅读文献,人工进行提取,但人工提取出来的技术问题是多样化的,没有给出技术问题定义标准,不容易选取应用,从而导致挖掘效率低,除了工人提取,现还有采取规则模板方式来进行获取文献中的技术问题,即利用计算机扫描全文抽取某片段的技术问题,然后简单地合并在一起,这样抽取到的问题,因为没有考虑上下文的信息,会出现语句之间没有完整的排序,造成抽取的片段不易理解,挖掘效率降低。然而通过利用计算机的人工智能对文献进行处理,会给用户带来很多有价值的信息,此种方法来获取文献的正成为一个新的研究方向。
发明内容
针对现有技术中的上述技术问题,本申请实施例提出了一种技术问题信息挖掘方法、装置与存储介质,以解决从文献中挖掘出来的技术问题没有给定义标准、不易理解以及挖掘效率较低的问题。
本申请实施例的第一方面提供了一种技术问题信息挖掘方法,包括:
对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句;
根据提取出来所述技术问题句再抽取相对应的有益效果的语句;
根据提取出来所述技术问题句与对应所述有益效果的语句进行分类训练,赋予问题句语义标签。
在一些实施例中,所述对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句方法包括:
对提取出的技术问题句进行清洗和去重,再根据不同位置的技术问题句对其进行排序和拼接,形成符合语言逻辑的技术问题句,进一步地形成与所述文献对应的所述技术问题句的列表。
在一些实施例中,所述对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句方法还包括:
根据提取技术问题句的来源和定位,进一步判断技术问题句之间的关系,进而明确先后排序。
在一些实施例中,所述根据提取出来所述技术问题句再抽取相对应所述有益效果的语句方法包括:
通过人工定义所述有益效果词或者模板抽取方式,获得所述有益效果的语句。
在一些实施例中,所述通过人工定义功效词或者模板抽取方式,获得所述有益效果的语句方法包括:
通过模板抽取所述有益效果词;
再次利用句法分析对有益效果语词进行抽取,然后将其拼接形成完整的有益效果语句;
对形成完整的有益效果语句进行筛选,提取出与技术问题句相对应的有益效果语句。
在一些实施例中,所述根据提取出来所述技术问题句再抽取相对应所述有益效果的语句方法还包括:
通过所述有益效果词出现的上下文位置来获得相关联的所述有益效果词进行组合形成有益效果语句。
在一些实施例中,所述根据提取出来所述技术问题句再抽取相对应所述有益效果的语句方法还包括:
根据选取的多个所述有益效果词,判断多个所述有益效果词之间组成所述有益效果的语句是否合理性,确定合理性,则输出所述有益效果的语句。
在一些实施例中,所述根据提取出来所述技术问题句与对应所述有益效果的语句进行分类训练包括:
根据提取出来所述技术问题句与所述有益效果的语句进行相匹配,形成所述技术问题句相对应与有益效果的语句对;
通过规则模板将所述有益效果的语句通过枚举方式作为所述技术问题句的标签,同时通过所述技术问题句相对应的所述有益效果的语句组合形成训练集或测试集,选择合适的所述技术问题句相对应的有益效果的语句组合和分类模型进行训练,确定所述技术问题句的标签;
将所述技术问题句输入所述分类模型,进行进行标签命名预测。
本申请实施例的第二方面提供了一种技术问题信息挖掘装置,包括:
技术问题句抽取模块,用于提取技术问题并使提取出来的技术问题进行排序和拼接形成符合语言逻辑的语句;
有益效果语句提取模块,提取所述技术问题句相对应的有益效果的语句;
分类训练模块,用于提取出来所述技术问题句与对应所述有益效果的语句进行分类。
本申请实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本申请实施例,通过对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句,根据提取出来所述技术问题句再抽取相对应有益效果的语句,根据提取出来所述技术问题句与对应所述有益效果的语句进行分类训练,赋予问题语句标签,从而抽取出来的技术问题片段更加容易理解,并且也提高了技术问题挖掘的效率,同时根据提取出来所述技术问题句与对应所述有益效果的语句进行分类训练,统一了技术问题定义的标准。
附图说明
通过参考附图会更加清楚的理解本申请的特征和优点,附图是示意性的而不应理解为对本申请进行任何限制,在附图中:
图1是根据本申请的一些实施例所示的一种技术问题信息挖掘方法流程图;
图2是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的具体流程示意图;
图3是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的另一具体流程示意图;
图4是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的文献对应的技术问题句的列表;
图5是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的术问题句被单独展示在一个列表;
图6是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的技术问题匹配定位图;
图7是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的多个来源技术问题的定位标识图;
图8是根据本申请的一些实施例所示的一种技术问题信息挖掘方法的技术问题标识框图。
具体实施方式
在下面的详细描述中,通过示例阐述了本申请的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本申请显而易见的可以在没有这些细节的情况下实施。应当理解的是,本申请中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本申请所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本申请所用术语仅为了描述特定实施例,而非限制本申请范围。如本申请说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本申请的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本申请的保护范围。可以理解的是,附图并非按比例绘制。
本申请中使用了多种结构图用来说明根据本申请的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本申请。本申请的保护范围以权利要求为准。
如图1所示,本申请实施例提出了一种技术问题信息挖掘方法,包括:
步骤S1:对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句;
步骤S2:根据提取出来技术问题句再抽取相对应有益效果的语句;
步骤S3:根据提取出来技术问题句与对应有益效果的语句进行分类训练,赋予问题句语义标签。
根据上述实施例,通过步骤S1:对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句,从而抽取出来的技术问题片段更加容易理解,通过步骤S2和步骤S3:根据提取出来技术问题句再抽取相对应有益效果的语句,以及技术问题与对应有益效果的语句的组合进行分类,赋予问题句语义标签,提高了技术问题挖掘的效率,统一了技术问题的标准。其中,技术问题与对应有益效果的语句是一个整体组合,一般不会分别将技术问题与益效果的语句单独拆开进行分类,和赋予问题句语义标签。
具体地,步骤S1还包括对提取出的技术问题句进行清洗和去重,再根据不同位置的技术问题句对其进行排序和拼接,形成符合语言逻辑的技术问题句,进一步地形成与文献对应的技术问题句的列表。需要说明的是,本发明需要先通过规则或模式模板来定义抽取技术问题语句,在技术问题语句抽取过程中进行清洗和去重步骤,事实上,本发明对技术问题语句排序包括对同一位置的技术语句进行排序和拼接,还可以对不同位置上的技术问题进行排序和拼接,最终形成文献名称和对应技术问题语句,方便了查找相关的文献,提高了挖掘问题的效率。另外,本发明运用自然语言排序模型和推断方法,对问题句进行了梳理,形成符合语言逻辑的语句,方便后续机器学习模型高效使用,其中,排序是根据排序模型对各个抽取的问题句分配权重,保留重要的有完整语义的句子,避免出现语义不通的语句,拼接是需要记录抽取过程中技术问题句子的序号,根据重要句子出现的先后顺序,对技术问题句进行拼接,继而最终能够形成完整有序的句子。
在其中一个实施例中,先获取技术问题匹配模板,比如“['针对','的问题',['属于','问题'],['涉及','问题'],'缺陷是','损失大','效果有限 ','目的在于','技术问题在于'”。问题匹配模板的获得方法可以是通过专家进行逐项制定的方法,也可以是通过对大量文献(文献包括学术期刊、论文以及专利文本等,本发明是以专利文本为例进行说明)技术问题文本进行统计分析得到。另外,匹配模板通过以下形式存储:
techProblem=['针对','的问题',['属于','问题'],['涉及','问题 '],'缺陷是','损失大','效果有限','目的在于','技术问题在于',['针对 ','方法'],\
['针对','措施'],['针对','缺点'],['针对','途径'],'目的是 ','目的之一','任务是',['存在','问题'],'旨在',['目前','最'],['在于 ','难以'],['已有','状况'],'一般都',\。
然后,通过匹配特征对专利的摘要、权利要求书、说明书等内容进行扫描,截取匹配到的文本内容。比如获得“解决切换电视频道过程中出现的黑屏现象”、“无法快速定位到用户平时常看的频道的问题”等内容,如图 4所示:
继而形成文献名称所对应的技术问题句的列表,通过查看列表的方式,提高了挖掘的效率。
进一步地,抽取的技术问题文本可能来自技术文献的不同部分,在本专利被称之为不同源。例如,论文文献中一个源可以来自于摘要、引言、技术问题、技术方案等章节。再例如专利文献中一个源可以是摘要、权利要求、说明书等。由于不同文本分布在不同源中,因此可以借助该结构对技术问题语料进行重组,从而生成更具代表性的、更完整表述的技术句。具体实现方式如下:
第一步,根据技术特征模式,制作文献的摘要、发明内容、具体实施方式字段;
"data":[
{
"description":"本实用新型属于物理技术领域,更进一步涉及一种具有阻隔噪音及防止异物进入耳道效果的封耳器。\n现已有“隔音耳封”实用新型(中国专利号94248616.1),该专利设计与市场上的防噪音耳罩或耳塞相比具有较理想的隔音效果,但其带松紧的圈状头套佩戴不便,对头部大片区域有箍紧感,对使用者视物有影响,且因头套遇水可能产生的变形,不适于兼作防止水等异物入耳的用途。为解决这些问题,同一设计人提出原理与之相同而具有不同结构的本实用新型。\n本实用新型的目的在于提供一种防噪音效果明显,兼具防止异物进入耳道效果的使用方便的封耳器。\n本实用新型有一个弹性拱形头架构件(1),其两端各与一个耳道封头(2) 相连。\n为防止耳道封头(2)所可能使用的硬质材料对耳部造成不适,可加耳垫(3)。耳垫(3)粘在、套在、插入或以其他方式固定在耳道封头(2)上。 \n图1和图2分别为本实用新型不同实施方案的整体结构的正面示意图(两图上部)及其各自的局部侧面视图(两图下部),引出线上数字“1”含指整个拱形架体。因头架构件具有弹性,故图中仅取其撑开一些的形态,撑开的程度对本实用新型的固有结构没有任何影响。图3,图4和图5各为图2中耳道封头(2)与耳垫(3)的剖视示意图,与图2的比例各为2∶1。\n下面结合附图对本实用新型作进一步的描述。\n与耳机或防噪音耳罩的头架构件的结构和大小相同的头架构件(1)其作为主干的上段由一根制成拱形的弹簧钢条或者最好如图1或图2由两根制成拱形彼此平行的粗弹簧钢丝(因用钢丝可节省材料而且因金属面积较小而隔音效果更好)构成,头架构件(1)的下段如图 1或图2所示设有与耳机或防噪音耳罩的头架构件上的结构相同的方位调节构造(4)。整个头架构件(1)的长度以人体两耳之间跨过头顶的弧线距离为度。头架构件(1)两端分别插在硬质塑料制成的耳道封头(2)上。耳道封头(2) 为“凸”字形带底座的柱体,头架构件(1)两端如图1插入底座;或者耳道封头(2)为柱体无底座,头架构件(1)两端如图2插入柱体。耳道封头(2)的端顶为圆凸面(如图3),或者为平面(如图1、图2或图4),或者端顶中凹成穴(如图5)。耳垫(3)用有弹性的软橡胶或软塑料制成,其作用面的大小与人体耳屏外表面相匹配。耳垫(3)制成套状套在耳道封头(2)上(如图3所示);或者制成片状粘在耳道封头(2)的端顶(如图1、图2或图4所示);或者制成一个蘑菇状,将“根”插入耳道封头(2)端顶的凹穴内(如图5所示)。 \n为取得更好的隔音效果并增加头部舒适,比照防噪音耳罩将头架构件(1) 裹以软塑料包垫。\n本实用新型使用时,将头架构件象戴耳罩或耳机那样套在头上,使耳道封头置于人体耳屏或耳道口处,这样借助头架构件向内的压力,使耳道封头利用耳屏封住或本身直接地封住耳道口,阻隔外来声音和物体的进入,其效果明显地优于覆盖整个耳廓(如用耳罩或耳机之类)或塞异物于耳道内的封耳手段,其方便和舒适程度及适用范围则远大于使用头套的“隔音耳封”。",
第二步,通过模板匹配获得上述语料的问题表述:
该专利设计与市场上的防噪音耳罩或耳塞相比具有较理想的隔音效果,但其带松紧的圈状头套佩戴不便,对头部大片区域有箍紧感,对使用者视物有影响,且因头套遇水可能产生的变形,不适于兼作防止水等异物入耳的用途;
第三步,进一步通过句法分析和摘要抽取算法,对涉及的问题短语权重给予排序打分,从而获得重要的有代表性的问题短语,完成排序,并进行拼接,效果如下:
“佩戴不便、箍紧感、视物有影响、变形、不适于兼做防治水等异物入耳的用途”。
第四步,根据上述步骤的描述,可以看到技术问题并不一定是文献文本中的一个段落,而可能是通过文本解析,从多个问题句来源组合而成的新的文本。这意味着如何向用户展示抽取到的技术问题提出了新的挑战。在一种较为简单的办法中,技术问题句被单独展示在一个列表之内,如图5所示,
这种方法可以将技术问题直接陈列在一个文本表格中,便于大量浏览,并且可以通过超链接进入专利阅读。
具体地,所述对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句方法还包括:根据提取技术问题句的来源和定位,进一步判断技术问题句之间的关系,进而明确先后排序。从而实现了将技术问题与专利文本进行融合,允许用户在浏览专利的同时定位技术问题。具体实施方式如下:
首先,获得技术问题及来源定位(来源包括是来自那个文献中,定位是在文中那个位置出现),在上述组合技术问题句时,系统同步记录技术问题来源及定位,用于排序。通过关系预测模型判断问句之间的关系是“因果”、“顺承”、“转折”等,进一步明确先后顺序。这样的问题句组合可以方便后续语料加工。
然后,将技术问题本文及来源定位进行匹配,生成技术文献匹配结果。
最后,对文献匹配结果进行标记处理,并将技术文献文本同时展示。
另外,如果抽取的技术问题仅来自一个源,此时匹配模块将对应的技术问题定位到文献文本处,并提供定位提示。如图6所示中,定位提示为对相关文本进行背景色及加边框处理。
如果抽取的技术问题是多个来源组合而成,因此将不同来源的文本分别匹配到对应的本文定位处,并增添定位标识,如图7所示,由多个小矩形组成的标识分别导航到技术问题的文本处。
当将鼠标移动到对应的标识处理位置上,会呈现对应源的本文,如图8 中没有示出,将鼠标悬停在多个矩形组成的标识位置上,是直接呈现出结果图。
具体地,如图2所示,步骤S2:根据提取出来技术问题句再抽取相对应有益效果的语句方法包括步骤S21:通过人工定义有益效果词或者模板抽取方式,获得有益效果的语句。一般技术文献都要包括技术方案以及对应问题解决效果,也就是有益效果。由于技术方案往往涉及到大量的技术细节,也正是技术文献本身要表达的内容,因此较难对其进行简单的抽取。而有益效果则存在一般性,可以利用机器进行有效的抽取,因此,将通过人工定义有益效果词或者模板抽取方式获得有益效果的语句,提高了挖掘的准确性。其中,有益效果片段抽取规则模板也可以共享技术问题句抽取模板。
具体地,如图2所示,步骤S21:通过人工定义有益效果词或者模板抽取方式,获得有益效果的语句包括:
步骤211通过模板抽取有益效果词,具体实施方式如下:
techPer=[['解决','弊端'],'本发明可','目的在于','优点是',['使 ','更'],'提高','降低','防止',['具有','作用'],'节省','可对',['使得 ','提高'],['使','增强'],'可使',
'有效提取','有利于',['能','满足'],'成本低','成本较低',['提高','质量'],['减少','错误'],['满足','需求'],['避免','问题 '],['降低','成本'],['达到','目的']
步骤212再次利用句法分析对有益效果语词进行抽取,然后将其拼接形成完整的有益效果语句,具体实施方式如下:
步骤213对形成完整的有益效果语句进行筛选,提取出与技术问题句相对应的有益效果语句,具体实施方式如下:
可以通过C-value方法的基本思想是先用语言规则得到候选术语集,然后使用统计信息来进行过滤。公式如下:
公式的计算分为两种情况:
首先,CV方法是基于词串a的词频的。对于a的c-value的值计算,分为两种情况:
(1)a不是嵌套串。c-value的值就取决于a的频数和词串a的长度。算法认为,词串的字数对于词串的c-value值起促进作用,换言之,词串越长,是术语的可能性就越大。
(2)a是嵌套串,表示的是包含a的长串b的词频,例如,a是”石油”,那么,b可能是“中石油”、”石油科技大学”,”西南石油”,”石油天然气”等等包含a的词串。该参数对词串的作用是消极的。即可以认为,一个词串a,若嵌套其的词串出现的频数较高,则a是术语的可能性就越小。例如,a是”石油”,那么f(b)为包含a的候选串”中石油”,f(b)出现的频数越高,表明f(b)是一个术语的可能性就越大,则a本身是一个术语的可能性就越小。
(3)(Ta)表示的是所有含有词串a的集合,例如,a是”石油”,那么, (Ta)就是“中石油”、”石油科技大学”,”西南石油”,”石油天然气”等等包含a的词串的集合。该参数对词串的作用是积极的。P(Ta)表示(Ta) 的个数,次数应该是4。(Ta)表征了a的独立性,若包含一个词串的集合个数越多,表明a在多个词中都出现过,则认为a有较强的独立性,更可能是一个术语。
总之,(1)一个词串a,若嵌套a的某个词串b出现的频数较高,则b 是术语的可能性就较大,a是术语可能性就较小。(2)嵌套a的词串组成的集合越大,表明a在多个词串中以不同的形式出现,a的独立性就越高,越可能是术语。所以第一个参数对c-value的值起消极作用,第二个参数起积极作用。
通过上述公式,很容易将需要的有益效果语句筛选出来,并且还能够与相应的技术问题对应,解决了挖掘技术问题的定义不清。
具体地,步骤S2根据提取出来技术问题句再抽取相对应有益效果的语句方法还包括:通过有益效果词出现的上下文位置来获得相关联的有益效果词进行组合形成有益效果语句。本实施例可以通过基于句法分析获得句子上下文中的位置有益效果词相关的主语、谓语、宾语成分,比如与句子中的主语“成本”相关的“显示屏”对象,与句子中谓语“切割”相关的的对象“效率”,与有益效果词关联输出;
具体实施方式如下,可以获得“保证安全性可靠性”的对象是列车关键装备,"最大限度提高效率"也对应了上述对象。
具体地,步骤S2根据提取出来技术问题句再抽取相对应有益效果的语句方法还包括:根据选取的多个有益效果词,判断多个有益效果词之间组成有益效果的语句是否合理性,确定合理性,则输出有益效果的语句。具体实施方式如下:
例如输出的有益效果词为“显示屏”+“成本”组合、或者“切割”、“效率”组合成为有益效果的语句,进一步也可能输出“效率切割”、“显示屏速度”等不符合使用逻辑的短语组合,通过信息论中的互信息公式判断这些词出现的概率,从而进行短语过滤,最后获得有益效果的语句。具体筛选方式为:例如上述组合上述短语,包括“保证列车安全性可靠性”,"最大限度提高列车效率",对上述短语进行互信息量判断,从而筛选,两个离散随机变量X和Y的互信息可以定义为:
其中p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X 和Y的边缘概率分布函数。
具体地,互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以2为基底,互信息的单位是bit。
具体地,如图3所示,S3根据提取出来技术问题句与对应有益效果的语句进行分类训练包括:S31根据提取出来技术问题句与有益效果的语句进行相匹配,形成技术问题句与有益效果的语句对;针对每一篇专利或其他文献,都可以生成一个或多个有益效果句,以及一条问题语料。可以生成一对或多对“技术问题-有益效果”组合,从而解决了问题定义规范缺失问题。进而利用文本分类模型对技术问题进行归类,从而实现问题挖掘效率的提高。具体实施方式如下:
比如,{有益效果句标签:"耳塞防噪音","耳罩防止异物入耳",
语料:"与市场上的防噪音耳罩或耳塞相比具有较理想的隔音效果,但其带松紧的圈状头套佩戴不便,对头部大片区域有箍紧感,对使用者视物有影响,且因头套遇水可能产生的变形,不适于兼作防止水等异物入耳的用途。"
S32通过规则模板将有益效果的语句通过枚举方式作为技术问题句的标签,同时通过技术问题句相对应的有益效果的语句组合形成训练集或测试集,选择合适的技术问题句相对应的有益效果的语句组合和分类模型进行训练。确定技术问题句的标签,通过“技术问题-有益效果”组合形成训练集、测试集,比如技术问题语句可以是“由于不同用户的用户属性可能不同,所以执行的响应操作也可能不同,从而使得同一语音对应多种响应形式,丰富了语音响应方式,提高了语音响应的灵活性。”,那么对应的有益效果标签可以是“语音响应灵活性”,从而明确了技术问题标签类型。
S33将技术问题句输入分类模型(其中,技术问题句,是与对应的有益效果句组合后的技术问题句),进行标签命名预测。其中,分类模型可以是机器学习模型或深度学习模型,而标签命名是对上述确定技术问题句的标签做分类且给出对应的类别名称。具体的,包括SVM,RNN模型等。具体实现方式为:技术问题语句的标签通过分类模型进行评估判断,即通过分类模型为技术问题句赋予标签类别,从而分配语义标签,输入可以是文本向量,分类模型可以是决策树、随机森林、GBDT模型等,也可以是深度学习模型,比如表示类或交互类结构模型。进一步,除了对技术问题语句的标签通过分类模型进行评估判断,还可以用专利或其他文献附带信息进行评估,比如专利中说用IPC分类、申请人等约束筛选,或论文中的论文类型、发表人等约束筛选,从而获得更为准确的问题标签结果。比如技术问题语句“由于不同用户的用户属性可能不同,所以执行的响应操作也可能不同,从而使得同一语音对应多种响应形式,丰富了语音响应方式,提高了语音响应的灵活性。”,我们关心的是语音领域,而不是用户操作领域,所以通过IPC分类可以提供一部分语义特征,用于模型评估约束,即通过IPC分类说明可以提供描述信息,来进行语义约束,从而提高模型的评估效果,即提高了技术问题语句挖掘的准确性。
另外,以随机深林为例:下面是随机森林的实现,在最终输出时本实施例只输出了分类的估计值(因为本实施例是用sklearn生成分类数据集的), '随机森林需要调整的参数有:
(1)决策树的个数
(2)特征属性的个数
(3)递归次数(即决策树的深度)″
#生成数据集。数据集包括标签,全包含在返回值的dataset上
#切分数据集,实现交叉验证。可以利用它来选择决策树个数。但本例没有实现其代码。
#第一步,将训练集划分为大小相同的K份;
#第二步,我们选择其中的K-1分训练模型,将用余下的那一份计算模型的预测值,
#这一份通常被称为交叉验证集;第三步,我们对所有考虑使用的参数建立模型#并做出预测,然后使用不同的K值重复这一过程。
#然后是关键,我们利用在不同的K下平均准确率最高所对应的决策树个数。
本申请的一个施例提供一种技术问题信息挖掘装置。在一些实施例中,一种技术问题信息挖掘装置包括:技术问题句抽取模块,用于提取技术问题并使提取出来的技术问题进行排序和拼接形成符合语言逻辑的语句,有益效果语句提取模块,提取技术问题句相对应的有益效果的语句,分类训练模块,用于提取出来技术问题句与对应有益效果的语句进行分类。通过技术问题句抽取模块、有益效果语句提取模块和分类训练模块从而抽取出来的技术问题片段更加容易理解,并且也提高了技术问题挖掘的效率,同时统一了技术问题定义的标准。
本申请的一个实施例提供一种计算机可读存储介质,其上存储有计算机可执行指令,当计算机可执行指令被计算装置执行时,可用来实现如前述各实施例的方法。
应当理解的是,本申请的上述具体实施方式仅仅用于示例性说明或解释本申请的原理,而不构成对本申请的限制。因此,在不偏离本申请的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。此外,本申请所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种技术问题信息挖掘方法,其特征在于,包括:
对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句;
根据提取出来所述技术问题句再抽取相对应的有益效果语句;
根据提取出来所述技术问题句与对应所述有益效果的语句进行分类训练,赋予问题句语义标签。
2.根据权利要求1所述的技术问题句信息挖掘方法,其特征在于,所述对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句方法包括:
对提取出的技术问题句进行清洗和去重,再根据不同位置的技术问题句对其进行排序和拼接,形成符合语言逻辑的技术问题句,进一步地形成与所述文献对应的所述技术问题句的列表。
3.根据权利要求2所述的技术问题句信息挖掘方法,其特征在于,所述对文献中的技术问题句进行抽取并对其排序和拼接形成符合语言逻辑的语句方法还包括:
根据提取技术问题句的来源和定位,进一步判断技术问题句之间的关系,进而明确先后排序。
4.根据权利要求1所述的技术问题句信息挖掘方法,其特征在于,所述根据提取出来所述技术问题句再抽取相对应所述有益效果的语句方法包括:
通过人工定义所述有益效果词或者模板抽取方式,获得所述有益效果的语句。
5.根据权利要求4所述的技术问题句信息挖掘方法,其特征在于,所述通过人工定义功效词或者模板抽取方式,获得所述有益效果的语句方法包括:
通过模板抽取所述有益效果词;
再次利用句法分析对有益效果语词进行抽取,然后将其拼接形成完整的有益效果语句;
对形成完整的有益效果语句进行筛选,提取出与技术问题句相对应的有益效果语句。
6.根据权利要求1所述的技术问题句信息挖掘方法,其特征在于,所述根据提取出来所述技术问题句再抽取相对应所述有益效果的语句方法还包括:
通过所述有益效果词出现的上下文位置来获得相关联的所述有益效果词进行组合形成有益效果语句。
7.根据权利要求1所述的技术问题句信息挖掘方法,其特征在于,所述根据提取出来所述技术问题句再抽取相对应所述有益效果的语句方法还包括:
根据选取的多个所述有益效果词,判断多个所述有益效果词之间组成所述有益效果的语句是否合理性,确定合理性,则输出所述有益效果的语句。
8.根据权利要求1所述的技术问题句信息挖掘方法,其特征在于,所述根据提取出来所述技术问题句与对应所述有益效果的语句进行分类训练包括:
根据提取出来所述技术问题句与所述有益效果的语句进行相匹配,形成所述技术问题句与有益效果的语句对;
通过规则模板将所述有益效果的语句通过枚举方式作为所述技术问题句的标签,同时通过所述技术问题句相对应的所述有益效果的语句组合形成训练集或测试集,选择合适的分类模型进行训练,确定所述技术问题句的标签。
将所述技术问题句输入所述分类模型,进行标签命名预测。
9.一种技术问题信息挖掘装置,其特征在于,包括:
技术问题句抽取模块,用于提取技术问题并使提取出来的技术问题进行排序和拼接形成符合语言逻辑的语句;
有益效果语句提取模块,提取所述技术问题句相对应的有益效果的语句;
分类训练模块,用于提取出来所述技术问题句与对应所述有益效果的语句进行分类。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111100957.XA CN114706974A (zh) | 2021-09-18 | 2021-09-18 | 一种技术问题信息挖掘方法、装置与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111100957.XA CN114706974A (zh) | 2021-09-18 | 2021-09-18 | 一种技术问题信息挖掘方法、装置与存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114706974A true CN114706974A (zh) | 2022-07-05 |
Family
ID=82167266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111100957.XA Pending CN114706974A (zh) | 2021-09-18 | 2021-09-18 | 一种技术问题信息挖掘方法、装置与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114706974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078105A1 (zh) * | 2022-10-11 | 2024-04-18 | 智慧芽信息科技(苏州)有限公司 | 专利文献中的技术问题抽取方法及相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN106570171A (zh) * | 2016-11-03 | 2017-04-19 | 中国电子科技集团公司第二十八研究所 | 一种基于语义的科技情报处理方法及系统 |
CN109190112A (zh) * | 2018-08-10 | 2019-01-11 | 合肥工业大学 | 基于双通道特征融合的专利分类方法、系统及存储介质 |
WO2019218660A1 (zh) * | 2018-05-15 | 2019-11-21 | 北京三快在线科技有限公司 | 文章生成 |
CN112307205A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于自动摘要的文本分类方法、系统及计算机存储介质 |
CN112380838A (zh) * | 2020-10-29 | 2021-02-19 | 武汉蝉略科技有限公司 | 一种基于大数据的专利文件智能标引方法及装置 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-18 CN CN202111100957.XA patent/CN114706974A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN106570171A (zh) * | 2016-11-03 | 2017-04-19 | 中国电子科技集团公司第二十八研究所 | 一种基于语义的科技情报处理方法及系统 |
WO2019218660A1 (zh) * | 2018-05-15 | 2019-11-21 | 北京三快在线科技有限公司 | 文章生成 |
CN109190112A (zh) * | 2018-08-10 | 2019-01-11 | 合肥工业大学 | 基于双通道特征融合的专利分类方法、系统及存储介质 |
CN112307205A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于自动摘要的文本分类方法、系统及计算机存储介质 |
CN112380838A (zh) * | 2020-10-29 | 2021-02-19 | 武汉蝉略科技有限公司 | 一种基于大数据的专利文件智能标引方法及装置 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078105A1 (zh) * | 2022-10-11 | 2024-04-18 | 智慧芽信息科技(苏州)有限公司 | 专利文献中的技术问题抽取方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN104484411B (zh) | 一种基于词典的语义知识库的构建方法 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN103207914B (zh) | 基于用户反馈评价的偏好向量生成方法和系统 | |
CN112270196A (zh) | 实体关系的识别方法、装置及电子设备 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN115269857A (zh) | 一种基于文档关系抽取的知识图谱构建方法和装置 | |
CN102298638A (zh) | 使用网页标签聚类提取新闻网页内容的方法和系统 | |
CN106502979A (zh) | 一种自然语言信息的数据处理方法和装置 | |
CN107480136B (zh) | 一种应用于电影剧本中情感曲线分析的方法 | |
CN109858034A (zh) | 一种基于注意力模型和情感词典的文本情感分类方法 | |
CN107247613A (zh) | 语句解析方法及语句解析装置 | |
CN109325122A (zh) | 词表生成方法、文本分类方法、装置、设备及存储介质 | |
CN110096587A (zh) | 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型 | |
CN114706974A (zh) | 一种技术问题信息挖掘方法、装置与存储介质 | |
CN111444695B (zh) | 基于人工智能的文本生成方法、装置、设备及存储介质 | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
CN103336803B (zh) | 一种嵌名春联的计算机生成方法 | |
CN104750484B (zh) | 一种基于最大熵模型的代码摘要生成方法 | |
CN110222181B (zh) | 一种基于Python的影评情感分析方法 | |
JP2016218512A (ja) | 情報処理装置及び情報処理プログラム | |
CN104572628B (zh) | 一种基于句法特征的学术定义自动抽取系统及方法 | |
CN106776568A (zh) | 基于用户评价的推荐理由生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |