CN112632286A - 一种文本属性特征的识别、分类及结构分析方法及装置 - Google Patents
一种文本属性特征的识别、分类及结构分析方法及装置 Download PDFInfo
- Publication number
- CN112632286A CN112632286A CN202011632896.7A CN202011632896A CN112632286A CN 112632286 A CN112632286 A CN 112632286A CN 202011632896 A CN202011632896 A CN 202011632896A CN 112632286 A CN112632286 A CN 112632286A
- Authority
- CN
- China
- Prior art keywords
- text
- efficacy
- text attribute
- generating
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003696 structure analysis method Methods 0.000 title claims description 12
- 239000013598 vector Substances 0.000 claims abstract description 319
- 238000000034 method Methods 0.000 claims abstract description 252
- 238000013145 classification model Methods 0.000 claims abstract description 221
- 230000008569 process Effects 0.000 claims abstract description 66
- 238000004458 analytical method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 abstract description 25
- 230000000875 corresponding effect Effects 0.000 description 65
- 230000000694 effects Effects 0.000 description 36
- 230000006870 function Effects 0.000 description 35
- PGLIUCLTXOYQMV-UHFFFAOYSA-N Cetirizine hydrochloride Chemical compound Cl.Cl.C1CN(CCOCC(=O)O)CCN1C(C=1C=CC(Cl)=CC=1)C1=CC=CC=C1 PGLIUCLTXOYQMV-UHFFFAOYSA-N 0.000 description 22
- 230000001149 cognitive effect Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000010606 normalization Methods 0.000 description 12
- 238000012216 screening Methods 0.000 description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 12
- 238000010276 construction Methods 0.000 description 10
- 230000001965 increasing effect Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000000692 anti-sense effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000008236 heating water Substances 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本属性特征的识别、分类及结构分析方法及装置,该文本属性特征的识别方法包括:根据目标文本中的语句生成语法结构;根据语法结构中的节点关系生成数据结构;根据数据结构生成第一输入向量;根据第一输入向量及预设的文本属性特征分类模型确定各语句包含属性特征文本的概率;根据概率识别目标文本中的文本属性特征。通过实施本发明,能够准确识别目标文本中的文本属性特征,实现对文本内容的含义的识别,能够挖掘文本更深层次的含义,不仅能够丰富文本识别的内容,而且对于后续的基于文本识别内容的分析处理等过程,能够提供更加全面的数据及内容的支持。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种文本属性特征的识别、分类及结构分析方法及装置。
背景技术
随着知识产权事业的发展,专利数据的巨大价值逐渐引起人们的重视,如何有效挖掘这个数据的价值非常重要。然而现有的文本识别分析方法,还仅仅停留在对文本词性的识别分析,从而分析出文本的基本结构的层面,无法获知该文本更深层次的含义,当用户想要依据一类表征文本的某些特性的词语(例如,表示效果的词语、表示褒义或贬义等)作为关键词进行检索时,现有的文本识别分析方法,则无法针对此类词语进行有效识别,因此,对于用户的检索等需求,仍无法满足。可见,基于现有的文本识别分析方法,对于文本内容的开发利用仍受到较大限制。因此,亟需一种能够深度挖掘文本内容的技术。
发明内容
有鉴于此,本发明实施例提供了一种文本属性特征的识别、分类及结构分析方法及装置,以解决基于现有的文本识别分析方法,对于文本内容的开发利用仍受到较大限制的问题。
根据第一方面,本发明实施例提供了一种文本属性特征的识别方法,包括:根据目标文本中的语句生成语法结构;根据所述语法结构中的节点关系生成数据结构;根据所述数据结构生成第一输入向量;根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;根据所述概率识别所述目标文本中的文本属性特征。
结合第一方面,在第一方面第一实施方式中,所述根据目标文本中的语句生成语法结构,包括:分别识别所述目标文本中各语句的词语,并构建词语有向图;计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;根据各语句的分词结果构建词语序列;根据所述词语序列中相邻的词语生成输入向量;根据预设的神经网络模型及所述输入向量得到输出向量;计算所述输入向量及输出向量的夹角余弦值;将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;根据所述组合节点及根节点确定所述词语序列的语法结构。
结合第一方面,在第一方面第二实施方式中,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;根据所述功效语句样本生成第一语法结构;根据所述第一语法结构中的节点关系生成第一特征列表;根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
结合第一方面,在第一方面第三实施方式中,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;根据所述功效短语样本生成第二语法结构;根据所述第二语法结构中的节点关系生成第二特征列表;根据预设的功效短语生成第二数据结构;根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
结合第一方面,在第一方面第四实施方式中,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率,包括以下步骤中的至少之一:根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征的第一概率;根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的短语包含属性特征的第二概率;根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的段落包含属性特征的第三概率。
根据第二方面,本发明实施例提供了一种文本属性特征的分类方法,包括:通过如第一方面或第一方面中任一实施方式所述的文本属性特征的识别方法根据目标文本中的语句识别所述目标文本中的文本属性特征;根据所述目标文本的识别结果构建文本属性特征集合;根据所述文本属性特征集合构建结构树;分别确定所述结构树中各叶节点的类中心点,将多个类中心点构成类中心集合;根据所述多个类中心点生成类中心向量,根据所述结构树的叶节点生成叶节点向量;根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点。
结合第二方面,在第二方面第一实施方式中,所述分别确定所述结构树中各叶节点的类中心点,包括:分别将所述结构树中其中一个叶节点作为中心节点,计算所述结构树中的叶节点到所述中心节点的平均距离;将所述平均距离最远的叶节点确定为所述类中心点。
结合第二方面,在第二方面第二实施方式中,所述根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点,包括:计算所述叶节点向量到类中心向量的欧氏距离;对于每一叶节点,将欧氏距离最小的类中心向量对应的类中心点作为所述每一叶节点的分类节点。
根据第三方面,本发明实施例提供了一种文本属性特征的分类模型的构建方法,包括:获取工程参数语料样本及文本属性特征样本,所述工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,所述文本属性特征样本为根据第一方面或第一方面任一实施方式所述的文本属性特征的识别方法识别生成的;根据所述文本属性特征样本生成工程参数输入向量,并根据所述工程参数语料样本生成工程参数输出向量;根据所述工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。
根据第四方面,本发明实施例提供了一种文本属性特征的分类方法,其特征在于,包括:获取目标文本,通过如第一方面或第一方面任一实施方式所述的文本属性特征的识别方法识别所述目标文本的文本属性特征;根据所述文本属性特征及预设的工程参数分类模型生成所述文本属性特征对应的工程参数分类结果。
结合第四方面,在第四方面第一实施方式中,所述工程参数分类模型为根据第三方面所述的文本属性特征的分类模型的构建方法所构建的。
根据第五方面,本发明实施例提供了一种文本结构分析方法,包括:识别目标文本的各个段落中的短语,根据各段落分别形成短语集合;对各个短语集合进行结构化解析,生成结构化集合;根据第一方面或第一方面任一实施方式所述的文本属性特征的识别方法识别所述结构化集合的段落中的文本属性特征;根据识别的文本属性特征建立所述结构化集合与短语集合的关联关系。
结合第五方面,在第五方面第一实施方式中,如果所述结构化集合的段落中不包含文本属性特征,选取与当前短语距离最近的、且位于当前短语后边的第一短语集合,与所述结构化集合建立关联关系。
结合第五方面第一实施方式,在第五方面第二实施方式中,如果未查找到所述第一短语集合,则选取与当前短语距离最近的、且位于当前短语前边的第二短语集合,与所述结构化集合建立关联关系。
结合第五方面第二实施方式,在第五方面第三实施方式中,如果所述第一短语集合及第二短语集合均不存在,则忽略当前短语。
根据第六方面,本发明实施例提供了一种文本属性特征的识别装置,包括:语法结构生成模块,用于根据目标文本中的语句生成语法结构;数据结构生成模块,用于根据所述语法结构中的节点关系生成数据结构;第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征。
根据第七方面,本发明实施例提供了一种文本属性特征的分类装置,包括:文本识别模块,用于通过如第一方面或第一方面任一实施方式所述的文本属性特征的识别方法根据目标文本中的语句识别所述目标文本中的文本属性特征;文本属性特征集合构建模块,用于根据所述目标文本的识别结果构建文本属性特征集合;结构树构建模块,用于根据所述文本属性特征集合构建结构树;类中心集合构建模块,用于分别确定所述结构树中各叶节点的类中心点,将多个类中心点构成类中心集合;向量生成模块,用于根据所述多个类中心点生成类中心向量,根据所述结构树的叶节点生成叶节点向量;分类节点确定模块,用于根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点。
根据第八方面,本发明实施例提供了一种文本属性特征的分类模型的构建装置,包括:样本获取模块,用于获取工程参数语料样本及文本属性特征样本,所述工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,所述文本属性特征样本为根据第一方面或第一方面任一实施方式所述的文本属性特征的识别方法识别生成的;向量生成模块,用于根据所述文本属性特征样本生成工程参数输入向量,并根据所述工程参数语料样本生成工程参数输出向量;模型构建模块,用于根据所述工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。
根据第九方面,本发明实施例提供了一种文本属性特征的分类装置,包括:文本识别模块,用于获取目标文本,通过如第一方面或第一方面任一实施方式所述的文本属性特征的识别方法识别所述目标文本的功效短语;文本分类模块,用于根据所述文本属性特征及预设的工程参数分类模型生成所述功效短语对应的工程参数分类结果。
根据第十方面,本发明实施例提供了一种文本结构分析装置,包括:短语集合生成模块,用于识别目标文本的各个段落中的短语,根据各段落分别形成短语集合;结构化集合生成模块,用于对各个短语集合进行结构化解析,生成结构化集合;文本识别模块,用于根据第一方面或第一方面任一实施方式所述的文本属性特征的识别方法识别所述结构化集合的段落中的文本属性特征;文本关系构建模块,用于根据识别的文本属性特征建立所述结构化集合与短语集合的关联关系。
根据第十一方面,本发明实施例提供了一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的文本属性特征的识别方法,或者,执行第二方面或第二方面任一实施方式所述的文本属性特征的分类方法,或者,执行第三方面所述的文本属性特征的分类模型的构建方法,或者,执行第四方面或第四方面任一实施方式所述的文本属性特征的分类方法,或者,执行第五方面或第五方面任一实施方式所述的文本结构分析方法。
根据第十二方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的文本属性特征的识别方法,或者,执行第二方面或第二方面任一实施方式所述的文本属性特征的分类方法,或者,执行第三方面所述的文本属性特征的分类模型的构建方法,或者,执行第四方面或第四方面任一实施方式所述的文本属性特征的分类方法,或者,执行第五方面或第五方面任一实施方式所述的文本结构分析方法。
方案1.一种文本属性特征的识别方法,包括:
获取目标文本中的数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征。
方案2.根据方案1所述的文本属性特征的识别方法,所述获取目标文本的数据结构,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构。
方案3.根据方案2所述的文本属性特征的识别方法,所述根据目标文本中的语句生成语法结构,包括:
分别识别所述目标文本中各语句的词语,并构建词语有向图;
计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;
根据各语句的分词结果构建词语序列;
根据所述词语序列中相邻的词语生成输入向量;
根据预设的神经网络模型及所述输入向量得到输出向量;
计算所述输入向量及输出向量的夹角余弦值;
将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;
根据所述组合节点及根节点确定所述词语序列的语法结构。
方案4.根据方案3所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
方案5.根据方案4所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案6.根据方案5所述的文本属性特征的识别方法,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的段落包含属性特征的第三概率。
方案7.根据方案4所述的文本属性特征的识别方法,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的段落包含属性特征的第三概率。
方案8.根据方案3所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案9.根据方案8所述的文本属性特征的识别方法,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的段落包含属性特征的第三概率。
方案10.根据方案1所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
方案11.根据方案10所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案12.根据方案11所述的文本属性特征的识别方法,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的段落包含属性特征的第三概率。
方案13.根据方案1所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案14.根据方案13所述的文本属性特征的识别方法,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本中的段落包含属性特征的第三概率。
方案15.根据方案1所述的文本属性特征的识别方法,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本中的段落包含属性特征的第三概率。
方案16.一种文本属性特征的识别方法,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述根据目标文本中的语句生成语法结构,包括:
分别识别所述目标文本中各语句的词语,并构建词语有向图;
计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;
根据各语句的分词结果构建词语序列;
根据所述词语序列中相邻的词语生成输入向量;
根据预设的神经网络模型及所述输入向量得到输出向量;
计算所述输入向量及输出向量的夹角余弦值;
将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;
根据所述组合节点及根节点确定所述词语序列的语法结构。
方案17.根据方案16所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
方案18.根据方案17所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案19.根据方案16所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案20.一种文本属性特征的识别方法,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
方案21.根据方案20所述的文本属性特征的识别方法,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案22.一种文本属性特征的识别方法,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案23.根据方案17、18、19或21所述的文本属性特征的识别方法,其特征在于,根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率,至少包括以下步骤中的至少之一:
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征的第一概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的短语包含属性特征的第二概率;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句中的段落包含属性特征的第三概率。
方案24.一种文本属性特征的分类方法,包括:
通过如方案1-23中任一项所述的文本属性特征的识别方法根据目标文本中的语句识别所述目标文本中的文本属性特征;
根据所述目标文本的识别结果构建文本属性特征集合;
根据所述文本属性特征集合构建结构树;
分别确定所述结构树中各叶节点的类中心点,将多个类中心点构成类中心集合;
根据所述多个类中心点生成类中心向量,根据所述结构树的叶节点生成叶节点向量;
根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点。
方案25.根据方案24所述的文本属性特征的分类方法,所述分别确定所述结构树中各叶节点的类中心点,包括:
分别将所述结构树中其中一个叶节点作为中心节点,计算所述结构树中的叶节点到所述中心节点的平均距离;
将所述平均距离最远的叶节点确定为所述类中心点。
方案26.根据方案24所述的文本属性特征的分类方法,所述根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点,包括:
计算所述叶节点向量到类中心向量的欧氏距离;
对于每一叶节点,将欧氏距离最小的类中心向量对应的类中心点作为所述每一叶节点的分类节点。
方案27.一种文本属性特征的分类模型的构建方法,包括:
获取工程参数语料样本及文本属性特征样本,所述工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,所述文本属性特征样本为根据方案1-23中任一项所述的文本属性特征的识别方法识别生成的;
根据所述文本属性特征样本生成工程参数输入向量,并根据所述工程参数语料样本生成工程参数输出向量;
根据所述工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。
方案28.一种文本属性特征的分类方法,包括:
获取目标文本,通过如方案1-23中任一项所述的文本属性特征的识别方法识别所述目标文本的文本属性特征;
根据所述文本属性特征及预设的工程参数分类模型生成所述文本属性特征对应的工程参数分类结果。
方案29.根据方案28所述的文本属性特征的分类方法,所述工程参数分类模型为根据方案27所述的文本属性特征的分类模型的构建方法所构建的。
方案30.一种文本结构分析方法,包括:
识别目标文本的各个段落中的短语,根据各段落分别形成短语集合;
对各个短语集合进行结构化解析,生成结构化集合;
根据方案1-23中任一项所述的文本属性特征的识别方法识别所述结构化集合的段落中的文本属性特征;
根据识别的文本属性特征建立所述结构化集合与短语集合的关联关系。
方案31.根据方案30所述的文本结构分析方法,
如果所述结构化集合的段落中不包含文本属性特征,选取与当前短语距离最近的、且位于当前短语后边的第一短语集合,与所述结构化集合建立关联关系。
方案32.根据方案31所述的文本结构分析方法,
如果未查找到所述第一短语集合,则选取与当前短语距离最近的、且位于当前短语前边的第二短语集合,与所述结构化集合建立关联关系。
方案33.根据方案32所述的文本结构分析方法,
如果所述第一短语集合及第二短语集合均不存在,则忽略当前短语。
方案34.一种文本属性特征的识别装置,包括:
数据结构获取模块,用于获取目标文本的数据结构;
第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;
概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征文本的概率;
文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
方案35.一种文本属性特征的识别装置,包括:
数据结构获取模块,用于获取目标文本的数据结构;
第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;
概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定所述目标文本包含属性特征文本的概率;
文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案36.一种文本属性特征的识别装置,包括:
数据结构获取模块,用于获取目标文本的数据结构;
第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;
概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定所述目标文本包含属性特征文本的概率;
文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征;
其中,所述数据结构获取模块具体用于:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
其中,所述根据目标文本中的语句生成语法结构,包括:
分别识别所述目标文本中各语句的词语,并构建词语有向图;
计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;
根据各语句的分词结果构建词语序列;
根据所述词语序列中相邻的词语生成输入向量;
根据预设的神经网络模型及所述输入向量得到输出向量;
计算所述输入向量及输出向量的夹角余弦值;
将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;
根据所述组合节点及根节点确定所述词语序列的语法结构。
方案37.一种文本属性特征的识别装置,包括:
语法结构生成模块,用于根据目标文本中的语句生成语法结构;
数据结构生成模块,用于根据所述语法结构中的节点关系生成数据结构;
第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;
概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征;
其中,所述语法结构生成模块具体用于:
分别识别所述目标文本中各语句的词语,并构建词语有向图;
计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;
根据各语句的分词结果构建词语序列;
根据所述词语序列中相邻的词语生成输入向量;
根据预设的神经网络模型及所述输入向量得到输出向量;
计算所述输入向量及输出向量的夹角余弦值;
将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;
根据所述组合节点及根节点确定所述词语序列的语法结构。
方案38.一种文本属性特征的识别装置,包括:
语法结构生成模块,用于根据目标文本中的语句生成语法结构;
数据结构生成模块,用于根据所述语法结构中的节点关系生成数据结构;
第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;
概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
方案39.一种文本属性特征的识别装置,包括:
语法结构生成模块,用于根据目标文本中的语句生成语法结构;
数据结构生成模块,用于根据所述语法结构中的节点关系生成数据结构;
第一输入向量生成模块,用于根据所述数据结构生成第一输入向量;
概率确定模块,用于根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
文本识别模块,用于根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
方案40.一种文本属性特征的分类装置,包括:
文本识别模块,用于通过如方案1-23中任一项所述的文本属性特征的识别方法根据目标文本中的语句识别所述目标文本中的文本属性特征;
文本属性特征集合构建模块,用于根据所述目标文本的识别结果构建文本属性特征集合;
结构树构建模块,用于根据所述文本属性特征集合构建结构树;
类中心集合构建模块,用于分别确定所述结构树中各叶节点的类中心点,将多个类中心点构成类中心集合;
向量生成模块,用于根据所述多个类中心点生成类中心向量,根据所述结构树的叶节点生成叶节点向量;
分类节点确定模块,用于根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点。
方案41.一种文本属性特征的分类模型的构建装置,包括:
样本获取模块,用于获取工程参数语料样本及文本属性特征样本,所述工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,所述文本属性特征样本为根据方案1-23中任一项所述的文本属性特征的识别方法识别生成的;
向量生成模块,用于根据所述文本属性特征样本生成工程参数输入向量,并根据所述工程参数语料样本生成工程参数输出向量;
模型构建模块,用于根据所述工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。
方案42.一种文本属性特征的分类装置,包括:
文本识别模块,用于获取目标文本,通过如方案1-23中任一项所述的文本属性特征的识别方法识别所述目标文本的功效短语;
文本分类模块,用于根据所述文本属性特征及预设的工程参数分类模型生成所述功效短语对应的工程参数分类结果。
方案43.一种文本结构分析装置,包括:
短语集合生成模块,用于识别目标文本的各个段落中的短语,根据各段落分别形成短语集合;
结构化集合生成模块,用于对各个短语集合进行结构化解析,生成结构化集合;
文本识别模块,用于根据方案1-23中任一项所述的文本属性特征的识别方法识别所述结构化集合的段落中的文本属性特征;
文本关系构建模块,用于根据识别的文本属性特征建立所述结构化集合与短语集合的关联关系。
方案44.一种计算机设备,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如方案1-23中任一项所述的文本属性特征的识别方法,或者,执行如方案24-26中任一项所述的文本属性特征的分类方法,或者,执行如方案27所述的文本属性特征的分类模型的构建方法,或者,执行如方案28或29所述的文本属性特征的分类方法,或者,执行如方案30-33中任一项所述的文本结构分析方法。
方案45.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如方案1-23中任一项所述的文本属性特征的识别方法,或者,执行如方案24-26中任一项所述的文本属性特征的分类方法,或者,执行如方案27所述的文本属性特征的分类模型的构建方法,或者,执行如方案28或29所述的文本属性特征的分类方法,或者,执行如方案30-33中任一项所述的文本结构分析方法。
本发明实施例的有益效果在于,通过实施本发明,能够准确识别目标文本中的文本属性特征,实现对文本内容的含义的识别,相较于现有技术,除去对文本的划分、词性等内容进行识别,还能够准确识别出文本中表示功效、效果等内容的表征文本属性特征的字、词、短语等,能够挖掘文本更深层次的含义,不仅能够丰富文本识别的内容,而且对于后续的基于文本识别内容的分析处理等过程,能够提供更加全面的数据及内容的支持。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明实施例的文本属性特征的识别方法的流程示意图;
图2示出了本发明实施例的步骤S10的流程示意图;
图3示出了本发明实施例的有向图G的示意图;
图4示出了本发明另一实施例的有向图G的示意图;
图5示出了本发明实施例的神经网络模型N的结构示意图;
图6示出了本发明实施例的语法结构的结构示意图;
图7示出了本发明实施例的构建该功效语句分类模型的流程示意图;
图8示出了本发明实施例的构建该功效短语分类模型的流程示意图;
图9示出了本发明实施例的句法树T的结构示意图;
图10示出了本发明实施例的文本属性特征的分类方法的流程示意图;
图11示出了本发明实施例的结构树Tree的结构示意图;
图12示出了本发明实施例的构建该工程参数分类模型的流程示意图;
图13示出了本发明实施例的文本结构分析方法的流程示意图;
图14示出了本发明实施例的文本属性特征的识别装置的结构示意图;
图15示出了本发明实施例的文本属性特征的分类装置的结构示意图;
图16示出了本发明另一实施例的文本属性特征的分类装置的结构示意图;
图17示出了本发明实施例的文本属性特征的分类模型的构建装置的结构示意图;
图18示出了本发明实施例的文本结构分析装置的结构示意图;
图19示出了本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,现有的文本识别分析方法,还仅仅停留在对文本本身的识别分析,从而分析出文本的基本结构的层面,无法获知该文本更深层次的含义,当用户想要依据一类表征文本的某些特性的词语(例如,表示效果的词语、表示褒义或贬义等)作为关键词进行检索时,现有的文本识别分析方法,则无法针对此类词语进行有效识别,因此,对于用户的检索等需求,仍无法满足。语言表达方式多样化,用关键词检索无法快捷、有效地检索到相应的特定词汇。
基于此,本发明实施例提出一种针对文本内容的属性特征的挖掘和展示方法。对任意指定的文本内容,例如是一篇专利或者一个专利集合,挖掘出其文本内容所包含的属性特征内容,例如是表征功效的功效语句、功效短语等,从中可以分析得出每一个文本内容的实际价值。
本发明实施例提供一种文本属性特征的识别方法,如图1所示,该识别方法主要包括以下步骤:
步骤S10:根据目标文本中的语句生成语法结构;
可选地,在本发明的一些实施例中,如图2所示,步骤S10中,根据目标文本中的语句生成语法结构的过程主要包括:
步骤S11:分别识别目标文本中各语句的词语,并构建词语有向图。在本发明实施例中,预先定义中文词典Dict,由普通中文词库和专用的词库组成。对目标文本中的语句sen,首先识别其中的每一个单字词和每一个Dict中的词,再把这些词放置于一个有向图G中。
例如,目标文本是“人工智能技术”。根据该目标文本建立的有向图G如图3所示,该语句sen的每一个字对应G中的一条边。
步骤S12:计算词语有向图中第一个节点到最后一个节点的最短路径,作为各语句的分词结果。
在构建了如图3所示的有向图G之后,以S1作为开始节点,S7作为结束节点,构建该语句中可能的词语组合对应的路线。
如词典中含有“人工”、“智能”、“技术”、“人工智能”四个词。则有向图G变成如图4所示。在图4中,“人工”这条边从S1指向S3,“智能”从S3指向S5,“人工智能”从S1指向S5,“技术”从S5指向S7。设定每条边权重相同,则从S1到S7的最短路径是S1—S5—S7,仅包含两条边,所以此分词结果是“人工智能”+“技术”。
本发明实施例中,寻找最短路径的方法具体可以是:定义arcs为有向图G的邻接矩阵。矩阵A为两个顶点之间的路径长度。
初始条件:
a)如节点i与节点j存在边edge,则arcs[i][j]=edge的长度。否则arcs[i][j]=无穷大。
b)第0轮迭代矩阵A,A[i][j]=arcs[i][j]。
迭代算法:
A(k)[i][j]=min{A(k-1)[i][j],A(k-1)[i][k]+A(k-1)[k][j]}
其中,k=1,2,3,……,n。主要思想是如果节点i到节点k的长度+节点k到节点j的长度小于节点i直接到节点j的长度,则更新节点i到节点j的长度。
步骤S13:根据各语句的分词结果构建词语序列;步骤S14:根据词语序列中相邻的词语生成输入向量。
在本发明实施例中,对于目标文本中的每一句话进行分词处理后,得到分词后的词语序列S,将分词结果输入word2vec模型训练,隐藏层节点数取300,经过训练得到每一个词的300维向量。定义神经网络N,第一层输入层是600维向量,第二层隐藏层是300维向量,第三层输出层是600维向量。
对词语序列S中的每两个相邻的词term1和term2,得到其对应的向量vec1和vec2,拼接成为600维的向量Vec,作为神经网络模型N的输入层和输出层,利用反向迭代算法训练神经网络模型N,该神经网络模型N的结构如图5所示。
步骤S15:根据预设的神经网络模型及输入向量得到输出向量;步骤S16:计算输入向量及输出向量的夹角余弦值。
本发明实施例中,对词语序列S中的每一语句sen,生成一个句法树T,每一个词都是叶子节点。生成该句法树T的过程主要包括:对sen中的每两个相邻的词term1和term2,得到其对应的向量vec1和vec2,拼接成为600维的向量Vec_in,作为预设的神经网络模型N的输入层经过计算得到输出层向量Vec_out,计算Vec_in和Vec_out是夹角余弦值cos1。
步骤S17:将夹角余弦值最大的两个相邻词语构建组合节点,直至生成词语序列的根节点;步骤S18:根据组合节点及根节点确定词语序列的语法结构。
将目标文本中每2个相邻的词语,都通过上述的过程计算得到夹角余弦值,从而确定夹角余弦值最大的2个相邻词语,把这2个词语纳入一个句法树T的中间节点node,并得到node的向量v=vec1+vec2。循环上述过程,直到归结出根节点root,从而形成了该目标文本sen的语法结构。
例如,目标文本sen中包含5个词语,term1到term5,每一个对应一个叶子节点,第一轮迭代,计算出term1和term2的组合节点node1,第二轮迭代,计算出term3和term4的组合节点node2,第三轮迭代,计算出node2和term5的组合节点node3;最后一轮,只需要把node1和node3归结到root即可,最终形成如图6所示的语法结构。
步骤S20;根据语法结构中的节点关系生成数据结构;
对目标文本,通过上述步骤S10,确定其对应的句法树T(即语法结构),根节点是root,中间节点n1,n2,…,nk,叶子节点L1,L2,Lm。将具有父子关系的2个节点生成数据结构,例如:[node1→node2],从而组成特征列表。对于如图6所示的语法结构,其相对应的特征列表fea1为:[root→node1],[root→node3],[node1→term1],[node1→term2],[node3→node2],[node3→term5],[node2→term3],[node2→term4]。
步骤S30:根据数据结构生成第一输入向量。在本发明实施例中,对于目标文本的文本属性特征的识别,主要是结合了预训练的分类模型进行的,因此,在得到了该目标文本的数据结构后,根据该数据结构形成分类模型的输入向量。
在该数据结构中,表达的也是两个词语之间的关联关系,因此,基于该数据结构形成分类模型的输入向量的过程主要包括:将数据结构中所包含的词语输入word2vec模型训练,隐藏层节点数取300,经过训练得到每一个词的300维向量。定义分类模型的第一层输入层是600维向量,第二层隐藏层是300维向量,第三层输出层是600维向量。
对数据结构中的两个相关联的词(例如前文所述的[node2→term4]),得到其对应的向量vec2和vec4,拼接成为600维的向量Vec,作为该分类模型的输入向量。
步骤S40:根据第一输入向量及预设的文本属性特征分类模型确定各语句包含属性特征文本的概率。
通过上述步骤S30得到输入向量后,将该输入向量输入通过训练构建的文本属性特征分类模型,从而确定该目标文本中的各语句中包含属性特征文本的概率。
步骤S50:根据概率识别目标文本中的文本属性特征。
在确定了目标文本中的各语句中包含属性特征文本的概率后,可根据该概率来识别该目标文本中是否存在文本属性特征。例如,如果确定目标文本中的各语句中包含属性特征文本的概率大于一预设阈值,并且,确定该目标文本中的各语句包含属性特征文本的概率的排序,将排序在前10%的语句认定为包含属性特征文本。
通过本发明实施例的文本属性特征的识别方法,能够准确识别目标文本中的文本属性特征,实现对文本内容的含义的识别,相较于现有技术,除去对文本的划分、词性等内容进行识别,还能够准确识别出文本中表示功效、效果等内容的表征文本属性特征的字、词、短语等,能够挖掘文本更深层次的含义,不仅能够丰富文本识别的内容,而且对于后续的基于文本识别内容的分析处理等过程,能够提供更加全面的数据及内容的支持。
可选地,在本发明的一些实施例中,上述的目标文本可以例如是指专利文献或是专利集合,对应于该专利文献或专利集合的文本属性特征可以例如是表征该专利的有益效果、技术效果的功效词语,例如,对于目标文本中的语句“达到提高运行速度的效果”,该语句中的功效词语为“提高”,其他的功效词语还可以例如是“使用方便、提高工作效率、结构简单”等。但功效词语也仅是文本属性特征的一种,仅是举例说明,并非用以限制本发明。
下文中,将以专利文献或专利集合作为该目标文本,以功效词语作为该文本属性特征为例,对本发明实施例的方案做具体说明,但也仅是举例说明,并非用以限制本发明。
可选地,在本发明的一些实施例中,针对功效语句的分类,上述的预设的文本属性特征分类模型可以为功效语句分类模型,如图7所示,可通过以下过程来构建该功效语句分类模型:
步骤S71:获取功效语句样本,功效语句样本包括预设的功效标记及样本语句;功效语句样本包含sen(句子)和功效标记flag(0/1值,是否功效句)。例如样本:帮助用户将文本中隐晦的结构显现出来,1。
步骤S72:根据功效语句样本生成第一语法结构;
步骤S73:根据第一语法结构中的节点关系生成第一特征列表;
步骤S74:根据特征列表生成第一分类输入向量,根据预设的功效标记及样本语句生成第一分类输出向量;
步骤S75:根据第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成功效语句分类模型。
具体地,是对功效语句样本抽出句法树T(即语法结构),根节点是root,中间节点n1,n2,…,nk,叶子节点L1,L2,Lm。具有父子关系的2个节点生成数据结构,[node1→node2],组成特征列表,作为分类模型的输入,是否功效句是分类模型的输出,在本发明实施例中,该分类模型可以选用SVM,使用高斯核,训练得到功效语句分类模型Model1。
可选地,在本发明的一些实施例中,针对功效短语的分类,上述的预设的文本属性特征分类模型可以为功效短语分类模型,如图8所示,可通过以下过程来构建该功效短语分类模型:
步骤S81:获取功效短语样本,功效短语样本包括预设的功效标记及样本短语;
步骤S82:根据功效短语样本生成第二语法结构;
步骤S83:根据第二语法结构中的节点关系生成第二特征列表;
步骤S84:根据特征列表生成第二分类输入向量,根据预设的功效标记及样本短语生成第二分类输出向量;
步骤S85:根据第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成功效短语分类模型。
功效短语样本第一部分是sen语法结构的特征列表。第二部分是短语的组成,限定词+中心词+功效词,如“提高运行速度”,中心词是速度,限定词是运行,功效词是提高,功效短语样本的第二部分形式是,速度|中心词+运行|限定词+提高|功效词。功效短语样本的第三部分是功效标记,0/1值,表示是否是功效短语。
例如,功效短语样本:达到提高运行速度的效果,速度|中心词+运行|限定词+提高|功效词,1。
对功效短语样本抽出句法树T(语法结构),如图9所示,根节点是root,中间节点n1,n2,nk。叶子节点L1,L2,Lm。具有父子关系的2个节点生成数据结构,[node1→node2],组成特征列表。如果term1,term2,term3是功效短语,则3个词组成数据结构,[term1,term2,term3],第一个位置是中心词,第二个位置是限定词,第三个位置是功效词。两部分合在一起,作为分类模型的输入,输出是是否功效短语,分类模型可以选用SVM,使用高斯核,训练得到功效短语模型Model2。
可选地,在本发明的一些实施例中,上述的步骤S40:根据第一输入向量及预设的文本属性特征分类模型确定各语句包含属性特征文本的概率的过程,具体可以至少包括以下步骤中的至少之一:
根据第一输入向量及预设的文本属性特征分类模型确定各语句包含属性特征的第一概率;
根据第一输入向量及预设的文本属性特征分类模型确定各语句中的短语包含属性特征的第二概率;
根据第一输入向量及预设的文本属性特征分类模型确定各语句中的段落包含属性特征的第三概率。
在本发明实施例中,对于目标文本的文本属性特征的分类,可以不仅限于语句的识别,可以扩展至短语的识别,以及针对段落的识别。当然,本领域技术人员应当能够理解,本发明实施例的文本属性特征的识别方法,也不仅仅只针对上文中所列出的语句、短语及段落,还可包括其他文本形式,本发明并不以此为限。
具体地,对于专利文献,可基于上述的功效语句模型Model1,对作为目标文本的专利文献中的每一句进行功效句判断,得到相应语句是功效句的概率r1;可基于上述的功效短语模型Model2,对作为目标文本的专利文献中的每一句中抽取功效短语,得到功效短语的概率r2。
对每一个目标文本的短语,求得该短语是功效短语的概率R,R=r1*w1+r2*w2+……,其中,w1,w2是r1,r2的权重,可以根据需要进行设置,且计算该功效短语的概率R的加权部分,也不仅限于上述的r1及r2,也可根据需要扩展至功效段落的概率r3等。
通过上述计算,如果R大于一定阈值,且在全部短语中属于前10名,则该短语就是功效短语。本领域技术人员应当知晓,此处所描述的R大于一定阈值,且在全部短语中属于前10名的判断标准仅是举例说明,实际应用中,可以根据需要对该判断标准进行调整。
基于专利文献,识别出文献中具体的哪些词语、短语属于功效短语,有助于了解该专利文献的实际作用,例如,针对专利文献,基本都会有效果描述部分的内容,不管是在发明内容部分,还是在具体实施方式部分,通过识别出相应的功效短语的描述,快速定位到效果部分,能够对该专利文献所涉及的方案的有益效果有更加准确的认知。并且,在实际应用中,基于对识别出的功效短语,还可以增加对该专利文献的标引标签,能够让进行检索用户多一个维度来了解该专利文献。
对于专利集合,可对该专利集合中的每一篇专利的每一句进行功效句判断,得到这句属于功效句的概率r1。从专利的每一句中抽取功效短语,得到功效短语的概率r2。
对每一个目标文本的短语,求得该短语是功效短语的概率R,R=r1*w1+r2*w2,w1,w2是r1,r2的权重,可以根据需要进行设置,且计算该功效短语的概率R的加权部分,也不仅限于上述的r1及r2,也可根据需要扩展至功效段落的概率r3等。
通过上述计算,如果R大于一定阈值,且在全部短语中属于前10%,则该短语就是功效短语,本领域技术人员应当知晓,此处所描述的R大于一定阈值,且在全部短语中属于前10%的判断标准仅是举例说明,实际应用中,可以根据需要对该判断标准进行调整。
当识别出相应的功效短语后,还将该专利集合中出现的功效短语进行整合,得到专利集合的功效短语集合。基于该功效短语集合,能够对该专利集合的整体情况有一个宏观的了解。在实际应用中,通常会基于领域、技术方向、关键词等作为核心来构建相应的专利集合,或是以用户检索的内容为基础,呈现相应的专利集合。针对这一类专利集合,能够通过本发明实施例的文本属性特征的识别方法,对一类专利集合中存在的功效短语进行有效识别,可以基于识别结果进行后续的统计分析等处理。
需要说明的是,如前文所述,本发明实施例中,针对的目标文本不仅限于专利文献或专利集合,而可针对各种文本进行相应内容的识别,并且,所识别的内容也不仅限于表示功效类的语句,可以是其他类型表征文本属性特征的字、词、句等,本发明并不以此为限。
以下结合一些具体应用实例对本发明实施例的文本属性特征的识别方法做进一步说明。
在实际应用中,用户希望对专利文献等文本内容进行检索时,往往会通过关键词、技术领域、分类号等相关的核心词语组成检索式进行检索,但是由于检索式的限制,往往得到的检索结果还是大批量的,检索范围较大。此时,如果能够结合专利文献的具体功效、有益效果做进一步筛选时,则可有效地进一步缩小检索到的内容的范围,从而向用户提供更加精确的检索结果。
因此,本发明实施例提供的文本属性特征的识别方法,能够针对专利文献等文本内容的功效内容做进一步识别,从而供用户使用,对文本内容进行筛选。例如,用户所检索的内容中包含“电炉+升高+水+温度”的功能描述,此时,通过上述任意实施例所述的文本属性特征的识别方法,能够识别出专利文献中存在的上述的功能描述,其中,水为中心词(即为作用对象);升高为功效词(即施加到作用对象上的动作),同时也是表示功效的正向或负向效果的词语,可具体定义为方向词;温度是参数;电炉是限定词(在此举例中,电炉是功能载体)。其中,限定词是指,限定功效核心概念的词;中心词是指技术功效的核心概念;方向词是指,描述技术效果优化方向的词。
因此,用户在基础检索的基础上,可以根据进一步的功能描述的筛选,选择涉及“电炉+升高+水+温度”相关的文献内容。当然,实际应用中,文献中所存在的功能描述可能并没有这么具体,例如,可以是“升高+水+温度”、“加热水”、“提高温度”、“电炉加热水”这类的更加概括,或者仅包含其中一部分的功能描述,但无论功能描述的形式如何变化,其包含的中心词+功效词这样的形式是不会变的,因此,针对这类功能描述,本发明实施例的文本属性特征的识别方法均可进行识别,从而提供给用户进行选择、筛选等处理。
本发明实施例还提供了一种文本属性特征的分类方法,如图10所示,该分类方法主要包括:
步骤S101:根据目标文本中的语句识别目标文本中的文本属性特征。在本发明实施例中,对于文本属性特征的分类方法的分类前提是,要对目标文本的语句所存在的文本属性特征进行识别,从而以此为基础进行分类。可选地,在本发明的一些实施例中,可以是通过标引或高亮等方式对进行标记的字、词、短语等进行识别,得到相应的文本属性特征。在本发明的一些实施例中,也可以是通过上述任意实施例所述的文本属性特征的识别方法来对目标文本进行识别,从而得到文本属性特征的识别结果。
步骤S102:根据目标文本的识别结果构建文本属性特征集合。对于识别出的文本属性特征,通常也包含相应的中心词,例如前文所述,得到的词语组合中不仅包括功效词,还包括中心词及限定词,对于这样的词语组合,定义一个文本属性特征集合T,其包含n个元素。例如:t1=运行+速度,全文中有n个这种组合t1,从而组成了集合T。
步骤S103:根据文本属性特征集合构建结构树。基于该文本属性特征集合T,建立结构树Tree,如图11所示,根是root节点,T中每一个元素是Tree的叶子节点,叶子节点结合L,包含L1,L2,Ln。如果任意2个叶子节点Li和Lj,在S中有过共现,则将Li与Lj纳入一个中间节点下。叶子节点的上一层节点是Node,包含Node1,Node2,Nodek。所有Node节点都与root相连。
步骤S104:分别确定结构树中各叶节点的类中心点,将多个类中心点构成类中心集合。
在本发明实施例中,此过程是分别以结构树中其中一个叶节点作为中心节点,计算结构树中的叶节点到中心节点的平均距离;将平均距离最远的叶节点确定为类中心点。
步骤S105:根据多个类中心点生成类中心向量,根据结构树的叶节点生成叶节点向量;步骤S106:根据类中心向量及叶节点向量分类节点确定各叶节点的分类节点。
本发明实施例中,根据类中心向量及叶节点向量分类节点确定各叶节点的分类节点的过程,主要包括:计算叶节点向量到类中心向量的欧氏距离;对于每一叶节点,将欧氏距离最小的类中心向量对应的类中心点作为每一叶节点的分类节点。
上述过程,是要将上述的n个元素(即所是识别出的文本属性特征)归类成m个类簇,(例如,可以定义m=10000),具体地,归类程如下:
(1)初始化类中心集合C,初始状态C为空;
(2)随机选定一个叶子Li,加入集合C;
(3)对其他节点,计算距离集合C中叶子节点Li的平均距离最远的叶子Lj,其中,该距离等于从一个节点经过树的边游走到Lj经过的边数。将平均距离最远的叶子Lj加入集合C。
(4)重复第(3)步,直到集合C中有m个元素,即m个类中心点,用cluster_i代表一个中心点。
对于每一个cluster_i,都是由限定词与中心词组成,得到限定词向量与中心词向量,拼接成600维向量vector_i。
其他每一个叶子节点leaf,也得到leaf的限定词向量与中心词向量拼接成的600维向量vec。计算vec到每一个类cluster_i向量的欧氏距离r,取r最小的中心点作为leaf的归类。
通过上述过程,可以为每一个leaf,找到对应的类中心。类中心短语,即是该类中每一个文本属性特征的分类结果。
例如,经过上述过程的计算,L1运行速度是一个类中心。L2滑行速度,与L1距离最近,则L1是L2的分类结果。
进一步地,在本发明的一些实施例中,还可通过计算不同类中心短语之间的夹角余弦值(例如是通过上述步骤S11至步骤S17的过程进行计算得到),并且,如果两个类中心短语的夹角余弦值的数值大于一预设阈值(例如是0.95),则可认定这两个类中心短语所表达的含义属于同义或近义,还可进一步将这两个类中心短语进行归类,得到进一步的分类结果。
在实际应用中,用户所检索的内容中包含的功能描述,可能存在多种形式,但是其含义有可能属于同一类功能或能达到的功效属于同一类,例如,“电炉+升高+水+温度”、“升高+水+温度”、“加热水”、“提高温度”、“电炉加热水”,这些功能描述的实质内容其实是同一类,都是用来将水的温度升高,区别仅在于表述形式上略有不同。因此,可通过本发明实施例的文本属性特征的分类方法将功能描述进行分类,从而实现将例如上述的仅是表述形式上的区别的文本内容进行归类,将实质内容不同的功能、功效描述的词语进行划分,归纳出相应的功效短语集合。同时也可避免将实质内容相同的功能描述划分为单独的类别,增加了分类结果的复杂性。
基于上述分类过程,至少可以解决两方面的问题。一方面,在实际应用中,用户在进行检索时,也可以基于功效描述来进行检索,但是,从用户角度出发,用户是希望能够快速地在与功效相关的所有表述形式中检索的较为全面,而不需要将实质内容相同的各种表述形式均列出来。通过上述举例可知,对于实际含义相同的功能描述,可能存在多种不同的表述形式,用户可能并不能列举,即使用户进行列举,也会使整个检索过程变得十分繁琐。因此,如何能够简化这个检索过程则是在基于文本内容的检索方案中所应当重点关注的。因此,基于上述分类方式,将实质含义相同的功能描述进行分类,基于该分类结果,当用户进行检索时,只需要输入其中一种表述形式,用户所使用的数据库、文献库等则可根据该表述形式所归属的功能描述分类,识别出用户所希望检索的功能描述的分类,基于该分类从数据库、文献库中提取相应的检索结果。可见,这样的处理方式能够大大简化用户的操作过程,同时又能够得到更加全面的、符合用户需求的检索结果。
另一方面,通过上述过程所得到的分类结果,能够应用到数据库、文献库等场景中。当用户基于关键词等检索式检索到相应的结果后,可基于初步检索结果中的功能描述对其进行分类,从而提炼出初步检索结果中所包含的主要几类功能描述,可以基于这些内容在数据库、文献库的筛选条件中增加一个筛选条件,将分类后的几种功能描述作为筛选条目,供用户进行筛选,给用户提供更多维度的检索筛选条件,从而帮助用户能够更加快速、准确地定位到自己想要检索的范围或内容。
此时,通过上述任意实施例所述的文本属性特征的识别方法,能够识别出专利文献中存在的上述的功能描述,其中,水为中心词(即为作用对象),升高为功效词(即施加到作用对象上的动作),温度是参数,电炉是限定词(在此举例中,电炉是功能载体)。因此,用户在基础检索的基础上,可以根据进一步的功能描述的筛选,选择涉及“电炉+升高+水+温度”相关的文献内容。当然,实际应用中,文献中所存在的功能描述可能并没有这么具体,例如,可以是这类的更加概括,或者仅包含其中一部分的功能描述,但无论功能描述的形式如何变化,其包含的中心词+功效词这样的形式是不会变的,因此,针对这类功能描述,本发明实施例的文本属性特征的识别方法均可进行识别,从而提供给用户进行选择、筛选等处理。
可选地,在本发明的一些实施例中,对于文本属性特征进行分类时,可能会遇到一类情况,就是一类词语表达的是“正向”的含义,而另一类词语表达的虽然是“负向”的含义,但是两者的实际含义其实是相同的。例如,“提升+正确率”和“降低+错误率”的实际含义是相同的。但是“提升+正确率”属于“正向”词语,“降低+错误率”属于“负向”词语,如果仅针对其中一类词语进行分类,显然会丢失一部分词语。而针对这两类不同的词语分别进行分类,这又与它们的实际含义相同这一点有些不一致。因此,在本发明实施例中,为了规避这种情况发生,在进行归类时,还可对这种实际含义相同的词语进行归一化处理。
对于m个类中心短语,可以通过标引的方式建立认知归一规则库。针对中心词和文本属性特征(在此实施例中,以功效词为例进行说明)。分别建立反义词库:对于中心词,例如,错误率—正确率。对m个短语中的每一个中心词,得出其相反意义的中心词,把每一个负向中心词替换成正向中心词。对于功效词,例如降低—提升。对m个短语中的每一个功效词,得出与其相反意义的功效词,把每一个负向功效词替换成正向功效词。
通过这样的处理方式,将实际含义相同的两类词语进行了统一,在对目标文本进行识别和分类等过程时,能够使相应的结果更加准确,更加符合文本内容所表达的实际意义。
在实际应用中,上述的归一化处理过程,可通过例如是人工智能中的智能语义分析技术来对正向、负向功效词等这类相同或相异的语义关系进行学习、训练,从而形成能够对所输入的词语进行分类的语义分析模型,通过该语义分析模型来实现对大量的词语进行快速、高效的归一化处理,结合了智能语义分析的归一化处理过程主要包括:
1,通过语义分析模型,识别目标文本中的功效类别,分成正向功效短语(例如包含提高,提升等词语)、负向功效短语(例如包含降低,减少等词语)。
其中,基于功效类别词语训练语义分析模型的过程主要包括:
A)建立语料库,例如可选取正向语料1万个,负向语料1万个。每个语料按照限定词+中心词+功效词的格式,例如“提高运行速度”,中心词是速度,限定词是运行,功效词是提高,则相应的语料结构为:速度|中心词+运行|限定词+提高|功效词。类别表示0/1值,0是负向,1是正向。因此,对于正向功效短语“提高运行速度”和负向功效短语“降低运行速度”,可得到其相应的语料为:
速度|中心词+运行|限定词+提高|功效词,1;
速度|中心词+运行|限定词+降低|功效词,0。
B)使用SVM算法将每一个功效短语分类到一个类别中,使用高斯核,基于语料库进行训练,得到语义分析模型。
2,将识别的负向短语转成正向短语
A)建立反义词库,如错误率—正确率。对m个短语中的每一个中心词,计算得出其相反意义的中心词,把每一个负向中心词替换成正向中心词。
B)建立反义词库,如降低—提升。对m个短语中的每一个功效词,得出其相反意义的功效词,把每一个负向功效词替换成正向功效词。
同时,上述举例中,仅是以正向功效词与负向功效词进行归一化处理的过程进行说明,在本发明的可选实施例中,对于功效词的归一化处理不限于语义相反的功效词语,同时也可针对语义相近的词语(例如是同义词或近义词)进行归一化处理,例如,对于“提高、提升、增高、增加”等词语,都是属于表示同一类含义的同义词或近义词,可基于其相同的含义,以其中一个功效词语作为基础,将其他的同义词或近义词进行归一化处理。通过这个归一化处理过程,可以进一步提高基于功效词语进行分类的准确性,同时,在后续的检索、归类或是筛选过程中,基于归一化处理后的筛选词语,也可以使用户在基于筛选词语进行选择后,所得到的结果更加符合用户的需求,提升用户的使用体验。
在结合本发明实施例的各类方式进行实际应用的过程中,发现本发明实施例的识别方法、分类方法所针对的目标文本的文本属性特征,还可和时下较为流行的TRIZ理论(意译为发明问题的解决理论。TRIZ理论成功地揭示了创造发明的内在规律和原理,着力于澄清和强调系统中存在的矛盾,其目标是完全解决矛盾,获得最终的理想解)存在相同的内容,因此,在本发明实施例中,借鉴TRIZ理论对工程参数集合的定义,来对目标文本的文本属性特征进行识别或分类。
其中,TRIZ对工程参数集合的定义可以如表1所示:
表1
由表1可知,TRIZ理论中,对于功效参数已经有了一定的分类,这正契合了本发明实施例中用以举例的功效参数的概念,并且,TRIZ理论中对于物理参数也有一定的划分,可见,也符合本发明实施例中所针对的目标文本的文本属性特征。
因此,本发明实施例提供了一种文本属性特征的分类方法,主要包括:
首先,获取目标文本,识别所述目标文本的文本属性特征。在本发明实施例中,对于文本属性特征的分类方法的分类前提是,要对目标文本的语句所存在的文本属性特征进行识别,从而以此为基础进行分类。可选地,在本发明的一些实施例中,可以是通过标引或高亮等方式对进行标记的字、词、短语等进行识别,得到相应的文本属性特征。在本发明的一些实施例中,也可以是通过上述任意实施例所述的文本属性特征的识别方法来对目标文本进行识别,从而得到文本属性特征的识别结果。
然后,根据所述文本属性特征及预设的工程参数分类模型生成所述文本属性特征对应的工程参数分类结果。其中,该预设的工程参数分类模型是根据前文所述的TRIZ理论的工程参数的分类进行预训练所构建的神经网络模型,因此,基于该训练好的分类模型,可以基于文本属性特征的是被结果,来得到对应于该工程参数分类的结果。
可选地,在本发明的一些实施例中,如图12所示,可以是通过以下过程来训练构建该工程参数分类模型:
步骤S121:获取工程参数语料样本及文本属性特征样本,其中,该工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,例如,对于“增加重量,1”,其中增加重量为工程参数文本属性特征,1位相应的类型标记,表示增加重量属于工程参数文本属性特征,如果标记为0,则表示相应的短语不属于工程参数文本属性特征。在一可选实施例中,此处所述的文本属性特征样本可以是通过上述任意实施例所述的文本属性特征的识别方法识别生成的;
步骤S122:根据文本属性特征样本生成工程参数输入向量,并根据工程参数语料样本生成工程参数输出向量。基于上述的样本来构成训练模型所需的输入向量及输出向量。
步骤S123:根据工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。在本发明实施例中,可以是使用SVM算法将每一个文本属性特征短语分类到一个工程参数文本属性特征中,使用高斯核,训练神经网络模型,从而构建所需的工程参数分类模型。
通过上述方法,结合相对成熟的TRIZ理论,对表征文本的属性特征的词语进行了相应的分类,并且,可基于此种分类方式,对目标文本做进一步的分析挖掘,基于TRIZ理论的工程参数进行分类,从而对目标文本有了更加系统的分类方式。并且,随着TRIZ理论在各个领域的普遍应用,结合了TRIZ理论的文本分类结果所展现的内容,能够更加契合用户的需求,供用户作为相应领域的挖掘、分析、扩展方案等方面的重要参考内容。
可选地,在本发明的一些实施例中,结合上述实施例所述的文本属性特征的分类方法,对文本内容进行分类时,除去基于TRIZ理论的工程参数进行分类之外,还可结合TRIZ理论中对于工程参数的功能分类来进行划分。在TRIZ理论中,可将工程参数对应的词语划分为有用功能、有害功能、不足功能及过渡功能。这个方面的分类结果可以从两个层面考虑,一方面,可以不依赖于前文所述的工程参数分类,仅根据该词语属于这几种功能分类中的某一类来进行划分;另一方面,也可以在前文所述的基于工程分类的基础上,进一步地对词语属于哪一类功能来进行划分。具体的分类方式可根据实际需要来进行设置。例如,针对用户选择不同的分类方式,可以选用直接根据功能分类;而对于用户选择将词语按照不同的分类层次进行划分,则可选用在工程参数分类的基础上,进一步进行功能分类,本发明并不以此为限。
并且,在实际应用中,结合TRIZ理论的工程参数的文本属性特征分析方法与本发明一些实施例所述的文本属性特征分析方法还可结合使用。针对用户想要检索的内容,不仅仅只列出一方面的分析检索结果,而是既可以展示基于一般功效词语分类后的检索结果,也可同时展示出基于TRIZ理论的工程参数分类后的检索结果,从而针对用户想要检索的文本内容,通过不同维度、不同层次向用户展示相应的检索结果,为用户展现更加全面、详细的检索结果。针对此类检索方案,在实际应用中,可以例如是在数据库、文献库等增加“自动功效词语复合检索功能”,例如,当用户选择了该自动功效词语符合检索功能,在相应的输入栏输入想要检索的关键词“防松”,则数据库、文献库的系统可基于该关键词,检索到与其实质含义相同的同类功能描述的词语,并且基于相应的分类,分别在技术功效及TRIZ工程参数中检索与其相关的关键词,以及这些关键词对应的技术功效句和技术功效短语等。用户在找出的“对应的技术功效句和技术功效短语中”,挑选与所要检索的功效相关的功效句、功效短语或功效词。相应地,如果用户输入的想要检索的关键词为上述的“相关的功效句、功效短语或功效词”,则数据库、文献库的系统还可依据该内容来倒推查找对应的技术功效1~3级及triz参数等。
针对上述过程所得到的检索结果,用户可以对以上信息那个自己的需求,以及系统所罗列的筛选条目做进一步筛选,从而找到自己真正想要的文本内容。实际应用中,用户可以用OR语句来将上述检索关键词组成复核检索式,从而对该功效相关内容进行全面检索。
本发明实施例还提供了一种文本结构分析方法,如图13所示,该文本结构分析方法主要包括:
步骤S131:识别目标文本的各个段落中的短语,根据各段落分别形成短语集合。对任意一目标文本(例如专利文献d),识别出该目标文本中的各个段落,对于出现在同一个段落的短语,组成短语集合S。例如,专利文献d有k个段落,p_1到p_k,则组成的短语集合S包含k个短语集合S1,S2,…,Sk。
步骤S132:对各个短语集合进行结构化解析,生成结构化集合。对专利文献d的每一个段落进行结构化解析,得到集合STRUCT,包含k个元素,其中每个元素是一个段落的结构化结果。
步骤S133:识别结构化集合的段落中的文本属性特征。在本发明实施例中,对于文本属性特征的分类方法的分类前提是,要对目标文本的语句所存在的文本属性特征进行识别,从而以此为基础进行分类。可选地,在本发明的一些实施例中,可以是通过标引或高亮等方式对进行标记的字、词、短语等进行识别,得到相应的文本属性特征。在本发明的一些实施例中,也可以是通过上述任意实施例所述的文本属性特征的识别方法来对目标文本进行识别,从而得到文本属性特征的识别结果。
步骤S134:根据识别的文本属性特征建立结构化集合与短语集合的关联关系。
在本发明实施例中,如果struct_i对应的段落p_i中含有文本属性特征短语集合s_i,则建立struct_i与S_i的对应关系。
如果struct_i对应的段落p_i中不含有文本属性特征短语,则选取距离p_i最近的,且出现在p_i后边的短语集合S_j。
如果S_j不存在则选取距离p_i最近的,且出现在p前边的短语集合S_m,建立对应关系。
如果S_m依然不存在,则忽略p_i。
通过上述过程,即确定了针对专利文献d的抽取结构化与功效的对应关系。
例如,针对目标文本:
(p1)一、龙门通过丝杠与连接块纵向移动,带动刀具纵向运动,这种配合方式运行稳定,提高雕刻精度;
(p2)二、顶尖架上设有多个顶尖,并通过导套、导柱的配合,只需推动顶尖架即可同时夹持多个工件,拧紧导套上的拧紧螺栓即可固定顶尖架,操作便捷,还提高效率。
可见,该目标文本具有2个段落p1和p2。
对于段落p1:
1,通过上述步骤S131及步骤S132,得到结构化struct_1:龙门-连接-丝杠,龙门-带动-刀具;
2,基于上述步骤S131及步骤S132,结合步骤S133,得到功效短语s_1:运行稳定,提高雕刻精度;
基于上述步骤S131至步骤S133,结合步骤S134,确定struct_1与s_1对应的关联关系是通过struct_1达到s_1的效果。
对于段落p2:
1,通过上述步骤S131及步骤S132,得到结构化struct_2:顶尖架-包含-顶尖,顶尖架-连接-导套,顶尖架-连接-导柱,顶尖架-推动-工件;
2,基于上述步骤S131及步骤S132,结合步骤S133,得到功效短语s_2:操作便捷,提高效率;
基于上述步骤S131至步骤S133,结合步骤S134,struct_2与s_2对应的关联关系是通过struct_2达到s_2的效果。
进一步地,对于包含了多篇目标文本的目标文本集合(例如是包含了多篇专利文献的专利集合D),首先通过上述过程取得其中每一篇专利的短语集合,并结构化该短语集合,并确定struct_i与文本属性特征短语的对应关系。对每一个短语集合s,取得专利集合D中所有与其对应的结构。对每一个结构struct,取得D专利集合中所有与其对应的功效短语。这样就完成专利集合D中的抽取结构化与功效的对应关系。
通过上述过程,能够给文本属性特征的分析推荐结构化的技术方案,或者对结构化的技术方案的文本属性特征内容进行预测)。并且,还可以结合一定的限制条件,给出更精确的结果。例如,结合功效和技术领域或关键词,给出针对性的技术方案,或者针对某一结构化的技术方案,以及关键的组件,给出更精确的功效预测(可以给出多个预测结果,并用百分号表示概率)。
上述的各个方法实施例是从文本属性特征的识别方法、文本属性特征的分类方法、文本结构的分析方法等角度,分别对基于文本的文本属性特征所进行挖掘、分析、识别、聚类等过程,在实际应用中,均可实现其各自的作用,得到相应的分析处理结果,并将结果提供给用户。可选地,在本发明的一些实施例中,还可将上述各方法实施例所对应的方法相结合,从而得到整体的对于文本的挖掘、分析等处理过程,从而多个角度、多个层次向用户展示基于该文本所能得到的不同的结果。
在本发明实施例中,不同的方法实施例所对应的方案可整体构成一个对于文本的分析处理架构,在该架构中可包含多个不同的层次的处理结果,例如可包括:语言层、感知层、认知层及标准参数层等。
其中,语言层是用于表征对功效词、功效短语等的词性进行标注和拆分,其体现了对于功效词、功效短语等的文本属性特征进行识别的过程,语言层可以是包含了限定词、中心词、方向词的组合。可通过上述方法实施例所述的文本属性特征的识别方法来得到该语言层。
感知层是用于表征对文本中的功效词进行分类的结果,是将含义相同的词规范统一,规范后的词语的组合。可通过上述方法实施例的文本属性特征的分类方法来得到该感知层;由语言层到感知层的归纳能力,相当于计算机能够达到人对技术功效的感知能力。
认知层是用于表征对文本中的功效词的表达进行归一化的结果,在感知层技术功效词组基础上,以将限定词、中心词和方向词作为一个整体,以人对语言表达的实质内容的认知一致性为标准,进行统一和规范。可通过上述方法实施例的文本属性特征的分类方法中的归一化处理过程来得到该认知层。从感知层到认知层的归纳能力,相当于计算机能够达到人对技术功效的实质内容的认知能力。
标准参数层是用于表征对认知层的技术功效进行聚类的结果,匹配TRIZ理论技术矛盾矩阵的功能参数,形成功效TRIZ参数。可通过上述方法实施例的结合了TRIZ理论的文本属性特征的分类方法来得到该标准参数层。从感知层到TRIZ参数层的归纳能力,相当于计算机能够达到发明专家对技术功效的总结能力。
实际应用中,基于上述各方法实施例的处理过程,可针对用户所要检索的文本,生成相应的分析处理结果,供用户选择,或根据用户的筛选展现不同的分析结果,从不同的角度和不同的方式,将用户检索的文本的相应的检索分析结果进行展示。以下结合几个具体实施例,对基于本发明各方法实施例所构建的分析处理架构的处理结果进行说明。
实施例1
文本1:该装置的有益效果是安装方便,且检测错误率减小了。
对文本1提取出两个功效短语。
文本1的功效短语1:安装方便
文本1的功效短语2:检测错误率减小
文本2:该装置安装便利,检测准确性高。
文本2的功效短语1:安装便利
文本2的功效短语2:检测准确性高
实施例2,是具体对于上述认知层所实现的对文本中的功效词的表达进行归一化的结果的示例:
文本1:该装置的有益效果是安装方便,且检测错误率减小了。
文本2:该装置安装便利,检测准确性高。
可见,文本1中的“检测错误率减小”和文本2中的“检测准确性高”是实际含义相同的两类功效词语。当用户搜索可以提升检测准确性的文本时,用户的输入语言可能是“如何提高检测准确性”、“检测错误率低的技术”等。如果不进行技术功效规范化,文本1和文本2则无法匹配成功。
通过本发明实施例的方法进行功效提取后,认知层结果如下:
可见,将用户输入需求规范化后,这两个问题在认知层都是“检测准确性提高”,文本1和文本2在认知层的实质内容完全一致。文本1和文本2都匹配成功,和技术功效未规范化相比,检索的全面性提高。
实施例3,是具体对于上述认知层所实现的对文本中的功效词的表达进行归一化的结果的示例:
文本4:该饮水机安装便利。
文本5:使用方便的饮水机。
用户输入问题:安装方便的饮水机。
从句式和文字的相似性来看。和文本4相比,文本5和用户输入内容更相近,如果是按传统的搜索引擎,文本5的相似性评分可能高于文本4。从人的理解来看,文本4和用户输入的问题都是将功效描述明确到安装的方便性,和文本5“使用”过程的方便性不同。
通过本发明实施例的方法进行功效提取后,认知层功效和匹配结果如下:
因此,基于本发明实施例的方法所得到的结果,和文本5相比,文本4的认知层技术功效与用户输入的认知层技术功效匹配度更高。
本发明实施例还提供了一种文本属性特征的识别装置,如图14所示,该文本属性特征的识别装置主要包括:
语法结构生成模块141,用于根据目标文本中的语句生成语法结构;详细内容可参见上述方法实施例的步骤S10的相关描述,在此不再赘述;
数据结构生成模块142,用于根据语法结构中的节点关系生成数据结构;详细内容可参见上述方法实施例的步骤S20的相关描述,在此不再赘述;
第一输入向量生成模块143,用于根据数据结构生成第一输入向量;详细内容可参见上述方法实施例的步骤S30的相关描述,在此不再赘述;
概率确定模块144,用于根据第一输入向量及预设的文本属性特征分类模型确定各语句包含属性特征文本的概率;详细内容可参见上述方法实施例的步骤S40的相关描述,在此不再赘述;
文本识别模块145,用于根据概率识别目标文本中的文本属性特征;详细内容可参见上述方法实施例的步骤S50的相关描述,在此不再赘述。
通过本发明实施例的文本属性特征的识别装置,能够准确识别目标文本中的文本属性特征,实现对文本内容的含义的识别,相较于现有技术,除去对文本的划分、词性等内容进行识别,还能够准确识别出文本中表示功效、效果等内容的表征文本属性特征的字、词、短语等,能够挖掘文本更深层次的含义,不仅能够丰富文本识别的内容,而且对于后续的基于文本识别内容的分析处理等过程,能够提供更加全面的数据及内容的支持。
本发明实施例还提供了一种文本属性特征的分类装置,如图15所示,该文本属性特征的分类装置主要包括:
文本识别模块151,用于根据目标文本中的语句识别所述目标文本中的文本属性特征;详细内容可参见上述方法实施例的步骤S101的相关描述,在此不再赘述;
文本属性特征集合构建模块152,用于根据所述目标文本的识别结果构建文本属性特征集合;详细内容可参见上述方法实施例的步骤S102的相关描述,在此不再赘述;
结构树构建模块153,用于根据所述文本属性特征集合构建结构树;详细内容可参见上述方法实施例的步骤S103的相关描述,在此不再赘述;
类中心集合构建模块154,用于分别确定所述结构树中各叶节点的类中心点,将多个类中心点构成类中心集合;详细内容可参见上述方法实施例的步骤S104的相关描述,在此不再赘述;
向量生成模块155,用于根据所述多个类中心点生成类中心向量,根据所述结构树的叶节点生成叶节点向量;详细内容可参见上述方法实施例的步骤S105的相关描述,在此不再赘述;
分类节点确定模块156,用于根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点;详细内容可参见上述方法实施例的步骤S106的相关描述,在此不再赘述。
通过本发明实施例的文本属性特征的分类装置将功能描述进行分类,从而实现将例如上述的仅是表述形式上的区别的文本内容进行归类,将实质内容不同的功能、功效描述的词语进行划分,归纳出相应的功效短语集合。同时也可避免将实质内容相同的功能描述划分为单独的类别,增加了分类结果的复杂性。
本发明实施例还提供了一种文本属性特征的分类装置,如图16所示,该文本属性特征的分类装置主要包括:
文本识别模块161,用于获取目标文本,识别所述目标文本的功效短语;在本发明实施例中,对于文本属性特征的分类方法的分类前提是,要对目标文本的语句所存在的文本属性特征进行识别,从而以此为基础进行分类。可选地,在本发明的一些实施例中,可以是通过标引或高亮等方式对进行标记的字、词、短语等进行识别,得到相应的文本属性特征。在本发明的一些实施例中,也可以是通过上述任意实施例所述的文本属性特征的识别方法来对目标文本进行识别,从而得到文本属性特征的识别结果。
文本分类模块162,用于根据所述文本属性特征及预设的工程参数分类模型生成所述功效短语对应的工程参数分类结果。其中,该预设的工程参数分类模型是根据前文所述的TRIZ理论的工程参数的分类进行预训练所构建的神经网络模型,因此,基于该训练好的分类模型,可以基于文本属性特征的是被结果,来得到对应于该工程参数分类的结果。
可选地,在本发明的一些实施例中,可以是通过如图17所示的文本属性特征的分类模型的构建装置来训练构建该工程参数分类模型,该文本属性特征的分类模型的构建装置主要包括:
样本获取模块171,用于获取工程参数语料样本及文本属性特征样本,其中,该工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,例如,对于“增加重量,1”,其中增加重量为工程参数文本属性特征,1位相应的类型标记,表示增加重量属于工程参数文本属性特征,如果标记为0,则表示相应的短语不属于工程参数文本属性特征。在一可选实施例中,此处所述的文本属性特征样本可以是通过上述任意实施例所述的文本属性特征的识别方法识别生成的;
向量生成模块172,用于根据文本属性特征样本生成工程参数输入向量,并根据工程参数语料样本生成工程参数输出向量。基于上述的样本来构成训练模型所需的输入向量及输出向量。
模型构建模块173,用于根据工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。在本发明实施例中,可以是使用SVM算法将每一个文本属性特征短语分类到一个工程参数文本属性特征中,使用高斯核,训练神经网络模型,从而构建所需的工程参数分类模型。
本发明实施例还提供了一种文本结构分析装置,如图18所示,该文本结构分析装置主要包括:
短语集合生成模块181,用于识别目标文本的各个段落中的短语,根据各段落分别形成短语集合;详细内容可参见上述方法实施例的步骤S131的相关描述,在此不再赘述;
结构化集合生成模块182,用于对各个短语集合进行结构化解析,生成结构化集合;详细内容可参见上述方法实施例的步骤S132的相关描述,在此不再赘述;
文本识别模块183,用于识别所述结构化集合的段落中的文本属性特征;详细内容可参见上述方法实施例的步骤S133的相关描述,在此不再赘述;
文本关系构建模块184,用于根据识别的文本属性特征建立所述结构化集合与短语集合的关联关系;详细内容可参见上述方法实施例的步骤S134的相关描述,在此不再赘述。
通过上述过程,能够给文本属性特征的分析推荐结构化的技术方案,或者对结构化的技术方案的文本属性特征内容进行预测)。并且,还可以结合一定的限制条件,给出更精确的结果。例如,结合功效和技术领域或关键词,给出针对性的技术方案,或者针对某一结构化的技术方案,以及关键的组件,给出更精确的功效预测(可以给出多个预测结果,并用百分号表示概率)。
本发明实施例还提供了一种计算机设备,如图19所示,该计算机设备可以包括处理器191和存储器192,其中处理器191和存储器192可以通过总线或者其他方式连接,图19中以通过总线连接为例。
处理器191可以为中央处理器(Central Processing Unit,CPU)。处理器191还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器192作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的文本属性特征的识别方法,或者,文本属性特征的分类方法,或者,文本属性特征的分类模型的构建方法所对应的程序指令/模块。处理器191通过运行存储在存储器192中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的文本属性特征的识别方法,或者,文本属性特征的分类方法,或者,文本属性特征的分类模型的构建方法。
存储器192可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器191所创建的数据等。此外,存储器192可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器192可选包括相对于处理器191远程设置的存储器,这些远程存储器可以通过网络连接至处理器191。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器192中,当被所述处理器191执行时,执行如图1-图13所示实施例中的文本属性特征的识别方法,或者,文本属性特征的分类方法,或者,文本属性特征的分类模型的构建方法。
上述计算机设备具体细节可以对应参阅图1至图13所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种文本属性特征的识别方法,其特征在于,包括:
获取目标文本中的数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征。
2.一种文本属性特征的识别方法,其特征在于,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述根据目标文本中的语句生成语法结构,包括:
分别识别所述目标文本中各语句的词语,并构建词语有向图;
计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;
根据各语句的分词结果构建词语序列;
根据所述词语序列中相邻的词语生成输入向量;
根据预设的神经网络模型及所述输入向量得到输出向量;
计算所述输入向量及输出向量的夹角余弦值;
将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;
根据所述组合节点及根节点确定所述词语序列的语法结构。
3.一种文本属性特征的识别方法,其特征在于,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
4.一种文本属性特征的识别方法,其特征在于,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
5.一种文本属性特征的分类方法,其特征在于,包括:
通过如权利要求1-4中任一项所述的文本属性特征的识别方法根据目标文本中的语句识别所述目标文本中的文本属性特征;
根据所述目标文本的识别结果构建文本属性特征集合;
根据所述文本属性特征集合构建结构树;
分别确定所述结构树中各叶节点的类中心点,将多个类中心点构成类中心集合;
根据所述多个类中心点生成类中心向量,根据所述结构树的叶节点生成叶节点向量;
根据所述类中心向量及叶节点向量分类节点确定各所述叶节点的分类节点。
6.一种文本属性特征的分类模型的构建方法,其特征在于,包括:
获取工程参数语料样本及文本属性特征样本,所述工程参数语料样本包括工程参数文本属性特征及文本属性特征类型标记,所述文本属性特征样本为根据权利要求1-4中任一项所述的文本属性特征的识别方法识别生成的;
根据所述文本属性特征样本生成工程参数输入向量,并根据所述工程参数语料样本生成工程参数输出向量;
根据所述工程参数输入向量及工程参数输出向量对SVM模型进行训练,构建工程参数分类模型。
7.一种文本属性特征的分类方法,其特征在于,包括:
获取目标文本,通过如权利要求1-4中任一项所述的文本属性特征的识别方法识别所述目标文本的文本属性特征;
根据所述文本属性特征及预设的工程参数分类模型生成所述文本属性特征对应的工程参数分类结果。
8.一种文本结构分析方法,其特征在于,包括:
识别目标文本的各个段落中的短语,根据各段落分别形成短语集合;
对各个短语集合进行结构化解析,生成结构化集合;
根据权利要求1-4中任一项所述的文本属性特征的识别方法识别所述结构化集合的段落中的文本属性特征;
根据识别的文本属性特征建立所述结构化集合与短语集合的关联关系。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-4中任一项所述的文本属性特征的识别方法,或者,执行如权利要求5中任一项所述的文本属性特征的分类方法,或者,执行如权利要求6所述的文本属性特征的分类模型的构建方法,或者,执行如权利要求7所述的文本属性特征的分类方法,或者,执行如权利要求8所述的文本结构分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-4中任一项所述的文本属性特征的识别方法,或者,执行如权利要求5所述的文本属性特征的分类方法,或者,执行如权利要求6所述的文本属性特征的分类模型的构建方法,或者,执行如权利要求7所述的文本属性特征的分类方法,或者,执行如权利要求8所述的文本结构分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632896.7A CN112632286A (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992100.2A CN111930953B (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
CN202011632896.7A CN112632286A (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992100.2A Division CN111930953B (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632286A true CN112632286A (zh) | 2021-04-09 |
Family
ID=73335257
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992100.2A Active CN111930953B (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
CN202011632896.7A Pending CN112632286A (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992100.2A Active CN111930953B (zh) | 2020-09-21 | 2020-09-21 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111930953B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361275A (zh) * | 2021-08-10 | 2021-09-07 | 北京优幕科技有限责任公司 | 演讲稿逻辑结构评价方法和设备 |
WO2023001308A1 (zh) * | 2021-07-23 | 2023-01-26 | 智慧芽信息科技(苏州)有限公司 | 文本识别方法及装置、计算机可读存储介质和电子设备 |
CN116341521A (zh) * | 2023-05-22 | 2023-06-27 | 环球数科集团有限公司 | 一种基于文本特征的aigc文章辨识系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080208590A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Disambiguating A Speech Recognition Grammar In A Multimodal Application |
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109033078A (zh) * | 2018-07-03 | 2018-12-18 | 龙马智芯(珠海横琴)科技有限公司 | 语句类别识别方法及装置、存储介质、处理器 |
CN109299252A (zh) * | 2018-08-17 | 2019-02-01 | 北京奇虎科技有限公司 | 基于机器学习的股票评论的观点极性分类方法和装置 |
CN109522555A (zh) * | 2018-11-16 | 2019-03-26 | 中国民航大学 | 一种基于BiLSTM的陆空通话复诵语义自动校验方法 |
CN109902159A (zh) * | 2019-01-29 | 2019-06-18 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的智能运维语句相似度匹配方法 |
CN110008323A (zh) * | 2019-03-27 | 2019-07-12 | 北京百分点信息科技有限公司 | 一种半监督学习结合集成学习的问题等价性判别的方法 |
EP3518142A1 (en) * | 2018-01-30 | 2019-07-31 | Accenture Global Solutions Limited | Cross-lingual text classification using character embedded data structures |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN110516236A (zh) * | 2019-08-09 | 2019-11-29 | 安徽工程大学 | 一种社交短文本细粒度情感采集方法 |
CN111414476A (zh) * | 2020-03-06 | 2020-07-14 | 哈尔滨工业大学 | 一种基于多任务学习的属性级情感分析方法 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN111523315A (zh) * | 2019-01-16 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5878386A (en) * | 1996-06-28 | 1999-03-02 | Microsoft Corporation | Natural language parser with dictionary-based part-of-speech probabilities |
US10796102B2 (en) * | 2017-05-10 | 2020-10-06 | Oracle International Corporation | Enabling rhetorical analysis via the use of communicative discourse trees |
US10853724B2 (en) * | 2017-06-02 | 2020-12-01 | Xerox Corporation | Symbolic priors for recurrent neural network based semantic parsing |
CN110852095B (zh) * | 2018-08-02 | 2023-09-19 | 中国银联股份有限公司 | 语句热点提取方法及系统 |
CN110515838A (zh) * | 2019-07-31 | 2019-11-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于主题模型软件缺陷检测的方法和系统 |
-
2020
- 2020-09-21 CN CN202010992100.2A patent/CN111930953B/zh active Active
- 2020-09-21 CN CN202011632896.7A patent/CN112632286A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080208590A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Disambiguating A Speech Recognition Grammar In A Multimodal Application |
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
EP3518142A1 (en) * | 2018-01-30 | 2019-07-31 | Accenture Global Solutions Limited | Cross-lingual text classification using character embedded data structures |
CN109033078A (zh) * | 2018-07-03 | 2018-12-18 | 龙马智芯(珠海横琴)科技有限公司 | 语句类别识别方法及装置、存储介质、处理器 |
CN109299252A (zh) * | 2018-08-17 | 2019-02-01 | 北京奇虎科技有限公司 | 基于机器学习的股票评论的观点极性分类方法和装置 |
CN109522555A (zh) * | 2018-11-16 | 2019-03-26 | 中国民航大学 | 一种基于BiLSTM的陆空通话复诵语义自动校验方法 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN111523315A (zh) * | 2019-01-16 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN109902159A (zh) * | 2019-01-29 | 2019-06-18 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的智能运维语句相似度匹配方法 |
CN110008323A (zh) * | 2019-03-27 | 2019-07-12 | 北京百分点信息科技有限公司 | 一种半监督学习结合集成学习的问题等价性判别的方法 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN110516236A (zh) * | 2019-08-09 | 2019-11-29 | 安徽工程大学 | 一种社交短文本细粒度情感采集方法 |
CN111414476A (zh) * | 2020-03-06 | 2020-07-14 | 哈尔滨工业大学 | 一种基于多任务学习的属性级情感分析方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023001308A1 (zh) * | 2021-07-23 | 2023-01-26 | 智慧芽信息科技(苏州)有限公司 | 文本识别方法及装置、计算机可读存储介质和电子设备 |
CN113361275A (zh) * | 2021-08-10 | 2021-09-07 | 北京优幕科技有限责任公司 | 演讲稿逻辑结构评价方法和设备 |
CN116341521A (zh) * | 2023-05-22 | 2023-06-27 | 环球数科集团有限公司 | 一种基于文本特征的aigc文章辨识系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111930953B (zh) | 2021-02-02 |
CN111930953A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和系统 | |
US10990767B1 (en) | Applied artificial intelligence technology for adaptive natural language understanding | |
CN111930953B (zh) | 一种文本属性特征的识别、分类及结构分析方法及装置 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
TWI662425B (zh) | 一種自動生成語義相近句子樣本的方法 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN112395395A (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN113742446A (zh) | 一种基于路径排序的知识图谱问答方法及系统 | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN110309258A (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN111680493B (zh) | 英语文本分析方法、装置、可读存储介质及计算机设备 | |
CN111209752A (zh) | 一种基于辅助信息的中文抽取性集成无监督摘要的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |