CN106202395A - 文本聚类方法和装置 - Google Patents
文本聚类方法和装置 Download PDFInfo
- Publication number
- CN106202395A CN106202395A CN201610539157.0A CN201610539157A CN106202395A CN 106202395 A CN106202395 A CN 106202395A CN 201610539157 A CN201610539157 A CN 201610539157A CN 106202395 A CN106202395 A CN 106202395A
- Authority
- CN
- China
- Prior art keywords
- text
- clustered
- syntax
- coding
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种文本聚类方法和装置,解决了现有技术中的文本聚类方式无法在依存句法层面上实现文本聚类的问题。该文本聚类方法包括:识别文本库的每个待聚类文本中词语之间的依存句法关系;将每个待聚类文本中存在的依存句法关系转化为句法编码;计算文本库中待聚类文本的句法编码之间的相似度;以及根据相似度的计算结果对文本库中的待聚类文本进行聚类。
Description
技术领域
本发明涉及语义分析技术领域,具体涉及一种文本聚类方法和装置。
背景技术
文本聚类作为一种对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。现有的文本聚类方式是将文本转化成向量模型,然后基于文本中词的字面含义进行聚类。然而,同样的字面含义可能通过多种依存句法结构表达出来,其中有的依存句法结构比较常用,有的则比较冷门,现有的文本聚类方法无法在依存句法的层面上对文本进行聚类。
例如“你是几岁呢?”和“几岁了呢你?”的字面含义相同,但二者却有着不同的依存句法结构,且“你是几岁呢?”的依存句法结构比较常用。若采用现有的文本聚类方法,根本无法将以上两个字面含义相同的文本在依存句法层面上进行区分和分类。由此可见,急需一种能在依存句法层面上实现文本聚类的方式。
发明内容
有鉴于此,本发明实施例提供了一种文本聚类方法和装置,解决了现有技术中的文本聚类方式在无法依存句法层面上实现文本聚类的问题。
本发明一实施例提供的一种文本聚类方法,包括:
识别文本库的每个待聚类文本中词语之间的依存句法关系;
将每个待聚类文本中存在的依存句法关系转化为句法编码;
计算文本库中不同待聚类文本的句法编码之间的相似度;以及
根据相似度的计算结果对文本库中的待聚类文本进行聚类。
其中,所述识别文本库的每个待聚类文本中词语之间的依存句法关系包括:
识别每个待聚类文本中的词语和词语的词性;
基于每个待聚类文本中每个词语的词性识别词语之间的依存句法关系。
其中,所述识别每个待聚类文本中的词语和词语的词性包括:
识别一个待聚类文本中每个字的状态值,其中所述状态值为以下几项中的一项:词语开头字、词语中间字、词语结尾字和独立成词;
根据状态值的识别结果将所述一个待聚类文本分成多个词语;以及
标注所述一个待聚类文本中词语的词性。
其中,所述标注所述一个待聚类文本中词语的词性包括:
基于已知词语库中已知词语的文本内容、已知词语的使用位置信息以及已知词语的词性使用概率信息判断所述一个待聚类文本中词语的词性。
其中,采用依存句法分析方法识别文本库的每个待聚类文本中词语之间的依存句法关系,其中所述依存句法分析方法包括以下几项中的一项:神经网络依存句法方法、条件随机场依存句法方法和最大熵依存句法方法。
其中,在识别文本库的每个待聚类文本中词语之间的依存句法关系之前,进一步包括:
去掉所述待聚类文本中的句法分析无意义词语和/或预设禁止词。
其中,所述将每个待聚类文本中存在的依存句法关系转化为句法编码包括:
每个待聚类文本中的每个依存句法关系对应所述句法编码中的至少一个字符;和/或
将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码。
其中,所述将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码包括:
将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及根据所述依存句法树的至少一种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为至少一种句法编码;或
将每个待聚类文本中存在的依存句法关系按照从左到右或从右到左的单向转化顺序转化为句法编码。
其中,所述树遍历方法包括以下几项中的一种:前序遍历方法、后序遍历方法和中序遍历方法。
其中,所述计算文本库中不同待聚类文本的句法编码之间的相似度包括:
计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离;
根据所述编辑距离确定所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度。
其中,当所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码的字符长度相同时,所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度=1-编辑距离/其中任一个待聚类文本的句法编码的字符长度;
当所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码的字符长度不同时,所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度=1-编辑距离/所述一个待聚类文本与另一个待聚类文本的句法编码中较长的句法编码的字符长度。
其中,所述将每个待聚类文本中存在的依存句法关系转化为句法编码包括:
将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
根据所述依存句法树的M种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为M种句法编码,M为大于或等于2的整数;
其中,所述计算文本库中待聚类文本的句法编码之间的相似度包括:
计算一个待聚类文本与另一个待聚类文本的M个基于同一种树遍历方法得出的两个句法编码之间的编辑距离;
根据每个所述编辑距离得出所述基于同一种树遍历方法得出的两个句法编码之间的相似度;以及
将得到的M个所述相似度取平均值以作为所述一个待聚类文本与所述另一个待聚类文本之间的相似度。
其中,所述计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离包括:
采用动态规划方法计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离。
其中,所述根据相似度的计算结果对文本库中的待聚类文本进行聚类包括:
根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类。
其中,所述根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类包括:
将每个待聚类文本转化为向量空间中的点;
在向量空间中确定一个密度聚类中心点,其中所述密度聚类中心点的局部密度大于周围的邻居点,且所述密度聚类中心点距离更高局部密度的点的距离大于第一预设值或所述密度聚类中心点拥有最大的局部密度;以及
将与所述密度聚类中心点所对应待聚类文本的句法编码的相似度大于预设阈值的待聚类文本归为一个聚类。
其中,所述密度聚类中心点的局部密度大于第二预设值;或
所述密度聚类中心点的局部密度与所述密度聚类中心点距离更高局部密度的点的距离的乘积大于第三预设值。
其中,所述方法进一步包括:
将密度聚类中心点的局部密度高于第一密度阈值的聚类中所包括的待聚类文本定义为热门句法;和/或
将密度聚类中心点的局部密度低于第二密度阈值的聚类中所包括的待聚类文本定义为冷门句法。
其中,所述方法进一步包括:
随时间顺序更新所述文本库中的待聚类文本;以及
对比更新后的待聚类文本的聚类结果与更新前的待聚类文本的聚类结果,将更新后新出现的文本聚类定义为新句法聚类,和/或将更新后消失的文本聚类定义为过气句法聚类待聚类文本的聚类结果待聚类文本的聚类结果。
本发明一实施例还提供一种文本聚类装置,包括:
依存句法分析模块,配置为识别文本库的每个待聚类文本中词语之间的依存句法关系;
句法编码模块,配置为将每个待聚类文本中存在的依存句法关系转化为句法编码;
相似度计算模块,配置为计算文本库中不同待聚类文本的句法编码之间的相似度;以及
聚类模块,根据所述相似度计算模块的计算结果对文本库中的待聚类文本进行聚类。
其中,所述依存句法分析模块包括:
分词单元,配置为识别文本库中每个待聚类文本中的词语和词语的词性;以及
识别单元,配置为基于每个待聚类文本中每个词语的词性识别词语之间的依存句法关系。
其中,所述装置进一步包括:
过滤模块,配置为在识别文本库的每个待聚类文本中词语之间的依存句法关系之前,去掉所述待聚类文本中的句法分析无意义词语和/或预设禁止词。
其中,所述句法编码模块进一步配置为,所述预设转化方法包括:
每个待聚类文本中的每个依存句法关系对应所述句法编码中的至少一个字符;和/或
将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码。
其中,所述句法编码模块包括:
依存句法树构建单元,配置为将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
遍历编码单元,配置为根据所述依存句法树的至少一种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为至少一种句法编码;或
所述句法编码模块进一步配置为:将每个待聚类文本中存在的依存句法关系按照从左到右或从右到左的单向转化顺序转化为句法编码。
其中,所述相似度计算模块包括:
编辑距离计算单元,配置为计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离;以及
相似度计算单元,配置为根据所述编辑距离计算单元的计算结果确定所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度。
其中,所述句法编码模块包括:
依存句法树构建单元,配置为将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
遍历编码单元,配置为根据所述依存句法树的M种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为M种句法编码,M为大于或等于2的整数;
其中,所述相似度计算模块的编辑距离计算单元进一步配置为:计算一个待聚类文本与另一个待聚类文本的M个基于同一种树遍历方法得出的两个句法编码之间的编辑距离;
所述相似度计算单元进一步配置为,根据每个所述编辑距离得出所述基于同一种树遍历方法得出的两个句法编码之间的相似度;以及将得到的M个所述相似度取平均值以作为所述一个待聚类文本与所述另一个待聚类文本之间的相似度。
其中,所述聚类模块进一步配置为:根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类。
其中,所述聚类模块包括:
转化单元,配置为将每个待聚类文本转化为向量空间中的点;
密度聚类中心点获取单元,配置为在向量空间中确定一个密度聚类中心点,其中所述密度聚类中心点的局部密度大于周围的邻居点,且所述密度聚类中心点距离更高局部密度的点的距离大于第一预设值或所述密度聚类中心点拥有最大的局部密度;以及
聚类处理单元,配置为将与所述密度聚类中心点所对应待聚类文本的句法编码的相似度大于预设阈值的待聚类文本归为一个聚类。
其中,所述聚类模块进一步配置为:
将密度聚类中心点的局部密度高于第一密度阈值的聚类中所包括的待聚类文本定义为热门句法;和/或
将密度聚类中心点的局部密度低于第二密度阈值的聚类中所包括的待聚类文本定义为冷门句法。
其中,所述装置进一步包括:
更新模块,配置为随时间顺序更新所述文本库中的待聚类文本;以及
对比模块,配置为对比更新后的待聚类文本的聚类结果与更新前的待聚类文本的聚类结果,将更新后新出现的文本聚类定义为新句法聚类,和/或将更新后消失的文本聚类定义为过气句法聚类待聚类文本的聚类结果待聚类文本的聚类结果。
本发明实施例提供的一种文本聚类方法和装置,首先识别待聚类文本中词语之间的依存句法关系,并将所识别出的依存句法关系转化成句法编码形式,再通过对比不同待聚类文本的句法编码之间的相似度,实现了对不同待聚类文本在依存句法层面上的聚类。
附图说明
图1所示为本发明一实施例提供的一种文本聚类方法的流程示意图。
图2所示为本发明一实施例提供的一种文本聚类方法中识别待聚类文本中词语之间的依存句法关系的流程示意图。
图3所示为本发明一实施例提供的一种文本聚类方法中识别待聚类文本中词语和词性的流程示意图。
图4所示为本发明一实施例提供的一种文本聚类方法中将依存句法关系转化为句法编码的流程示意图。
图5所示为本发明一实施例提供的一种依存句法树的结构示意图。
图6所示为本发明一实施例提供的一种文本聚类方法中计算待聚类文本的句法编码之间的相似度的流程示意图。
图7所示为本发明另一实施例提供的一种文本聚类方法中计算待聚类文本的句法编码之间的相似度的流程示意图。
图8所示为本发明另一实施例提供的一种文本聚类方法中采用密度聚类方法对文本库中的待聚类文本进行聚类的流程示意图。
图9所示为本发明一实施例提供的一种文本聚类装置的结构示意图。
图10所示为本发明另一实施例提供的一种文本聚类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一实施例提供的一种文本聚类方法的流程示意图。如图1所示,该文本聚类方法包括:
步骤101:识别文本库的每个待聚类文本中词语之间的依存句法关系。
具体而言,每个待聚类文本是由词语构成的,不同的词语之间存在一定的依存句法关系,而这些待聚类文本中词语之间的依存句法关系正是进行后续文本聚类的依据。在本发明一实施例中,用于识别这些依存句法关系的依存句法分析方法可采用以下几项中的一项:神经网络依存句法方法、条件随机场(CRF)依存句法方法和最大熵依存句法方法。
为了便于理解,下面以文本库包括“你是几岁呢”、“几岁了呢你”以及“你有照片吗”三个待聚类文本为例进行阐述,该三个待聚类文本以一定的依存句法分析方法得出的结果如下表所示。
如上表所示,三个待聚类文本中的每个待聚类文本由不同的词语构成,例如“你有照片吗”就是由“你”、“有”、“照片”和“吗”几个词语构成。同时,每个待聚类文本中的词语之间存在着一定的依存句法关系,其中依存编号列的内容则为与当前行的词语存在依存句法关系的词语编号,依存句法关系则为具体的依存句法关系内容。例如“照片”的依存编号为2,则说明“照片”与编号为2的“有”存在动宾关系。依存编号为0的词语为待聚类文本的核心词语,不与其他词语存在依存句法关系。
在本发明一实施例中,待聚类文本中词语之间的依存句法关系的识别是基于词语的词性进行的,具体而言,如图2所示,该依存句法关系的识别过程可包括:
步骤1011:识别每个待聚类文本中的词语和词语的词性。
步骤1012:基于每个待聚类文本中每个词语的词性识别词语之间的依存句法关系。
即,先要将由连续的字组成的待聚类文本分成具备各自词性的词语,才能基于这些词语的词性确定词语之间的依存句法关系。在一进一步实施例中,如图3所示,步骤1011中词语和词性的识别过程可具体通过如下步骤进行:
步骤10111:识别一个待聚类文本中每个字的状态值,其中状态值为以下几项中的一项:词语开头字、词语中间字、词语结尾字和独立成词。在本发明一实施例中,每个字状态值的识别过程可具体通过维特比(Viterbi)方法完成。
例如一个内容为“你有自行车吗”的待聚类文本中包含了六个字,若以S代表独立成词、以B代表词语开头字、以M代表词语中间字,以E代表词语结尾字,则“你有自行车吗”所对应的状态值组合为SSBMES。
步骤10112:根据状态值的识别结果将该一个待聚类文本分成多个词语。
具体而言,将独立成词的字分成一个独立词语,将一个词语开头字、一个词语结尾字、以及该词语开头字和词语结尾字之间的词语中间字分成一个词语。例如,SSBMES的分词结果就可为S/S/BME/S,即“你有自行车吗”可被分成“你”、“有”、“自行车”和“吗”几个词语。
步骤10113:标注该一个待聚类文本中词语的词性。
在本发明一实施例中,可基于已知的词语库标注该一个待聚类文本中词语的词性,具体而言,可基于该已知词语库中已知词语的文本内容、已知词语的使用位置信息以及已知词语的词性使用概率信息可判断出该一个待聚类文本中词语的词性。例如,在已知的词语库中“自行车”是一个名词,则可将“自行车”标注为名词,以此类推“你”字可标注为代词,“有”字可标注为动词,“吗”字可标注为语气词。
这样根据这些词语的词性便可确定词语之间的依存句法关系,例如“你”作为代词,后面紧接的一个动词“有”,则“你”和“有”之间就被认为存在主谓关系。
应当理解,在本发明的其他实施例中,待聚类文本中词语之间的依存句法关系也可不依据词语的词性进行识别,例如还可通过提前的预学习过程识别,本发明对待聚类文本中依次句法关系识别的具体过程并不做限定。
步骤102:将每个待聚类文本中存在的依存句法关系转化为句法编码。即,每个待聚类文本中存在的依存句法关系都通过一个句法编码表征。
在本发明一实施例中,可按照预设的转化方法将待聚类文本中的依存句法关系转化为句法编码,该预设的转化方法可包括:每个依存句法关系对应句法编码中的至少一个字符。这样在识别一个待聚类文本中的依存句法关系并转化为句法编码后,该待聚类文本的句法编码是由依存句法关系所各自对应的字符构成。在本发明另一实施例中,该预设转化方法还可包括:将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码。例如,按照从左到右或从右到左的单向转化顺序将待聚类文本中存在的依存句法关系转化为句法编码。
应当理解,虽然每个依存句法关系可对应句法编码中的多个字符,但在计算资源有限的情况下有时并不是十分必要,因为在后续的不同待聚类文本句法编码的相似度计算过程中,句法编码的字符长度越短,相似度对比的计算量越小,计算资源的负担越小,计算效率越高。因此,在本发明一进一步实施例中,每个依存句法关系仅对应句法编码中的一个字符。例如“几岁了呢你”这句待聚类文本,以“岁”为核心词语存在如下依存句法关系:定中关系、右附加关系、右附加关系和并列关系。若以字符F代表定中关系、以字符L代表有附加关系并以字符I代表并列关系,则“几岁了呢你”按从左到右的单向转化顺序得出的句法编码为FLLI。同理可得出“你是几岁呢”和“你有照片吗”的句法编码可分别为AFBL和ABL,其中A代表主谓关系、B代表动宾关系。
由于常见的依存句法关系种类有限,并未超过26种,因此在上述实施例描述中采用英文字母就足以表示常见的依存句法关系了,每种依存句法关系可对应一个英文字母。但同时应当理解,用于表示依存句法关系的字符可由开发人员自定义,例如也可采用除英文字母外的其他字符,只要不同的依存句法关系对应不同的字符即可,本发明对具体所采用的字符以及这些字符与依存句法关系的对应关系并不做限定。本发明对句法编码转化的预设转化方法的具体内容同样不做限定。
此外还应当理解,虽然上述描述中在将待聚类文本中依存句法关系转化为句法编码时采用了简单的从左到右的单向转化顺序,但对于内容较为复杂的待聚类文本,这种简单的单向转化顺序可能并不适用,原因在于内容较为复杂的待聚类文本中所存在的依存句法关系也较为复杂,不同的依存句法关系之间甚至可能存在嵌套的逻辑关系。为了解决这一问题,本发明一实施例提供了一种基于树结构将一个待聚类文本中存在的依存句法关系转化为句法编码的方法。如图4所示,该方法包括如下步骤:
步骤1021:将一个待聚类文本中存在的依存句法关系转化成依存句法树。
由于复杂的待聚类文本中所存在的依存句法关系也较为复杂,因此将这些依存句法关系转化成依存句法树可清楚明确的表示不同依存句法关系之间的逻辑关系,树结构中的每个结点对应一个词语,结点之间的连接线代表词语之间的依存句法关系。例如,“几岁了呢你”中存在的依存句法关系所转化成依存句法树结构可如图5所示,其中的Root为根节点,HED为根节点与核心词语之间的树结构关系,ATT为定中关系,RAD为右附加关系,COO为并列关系。由于的待聚类文本中都会存在一个核心词语,因此核心词语与根节点之间的树结构关系HED可不纳入句法编码中。
步骤1022:根据依存句法树的至少一种树遍历方法将该一个待聚类文本中存在的依存句法关系转化为至少一种句法编码。
由于依存句法树的树结构可存在多种树遍历方法,例如前序遍历方法、后序遍历方法和中序遍历方法等,因此当依存句法树的结构比较复杂时,根据不同的树遍历方法所转化成的句法编码也会有所不同。但当依存句法树的结构比较简单时,根据不同树遍历方法所转化成的句法编码也可能会相同。例如,如图5所示的依存句法树的结构就比较简单,仅包括除Root根节点外的一层结点,即ATT、RAD、RAD和COO都位于同一结点层,因此在同一结点层中无论是采用前序遍历方法还是后序遍历方法都是按照从左到右的顺序遍历,因此按照前序遍历方法或后序遍历方法所得到的遍历编码都为ATT-RAD-RAD-COO。若以字符F代表定中关系、以字符L代表有附加关系并以字符I代表并列关系,则后序遍历编码ATT-RAD-RAD-COO简化后的句法编码为FLLI,前序遍历编码简化后的句法编码也为FLLI。简化后的句法编码中的每个字符对应一个依存句法关系。
步骤103:计算文本库中不同待聚类文本的句法编码之间的相似度。
应当理解,这里所述的不同待聚类文本是不同的待聚类文本个体,而并非文本内容上的不同。在得到了所有待聚类文本各自的句法编码后,便可将这些句法编码的字符进行对比以计算不同待聚类文本的句法编码之间的相似度,而相似度的计算结果便为后续进行文本聚类的直接依据。
仍以上面提到的三个待聚类文本为例,“你是几岁呢”、“几岁了呢你”和“你有照片吗”分别对应的句法编码为AFBL、FLLI和ABL。从直观的观察就可看出,其中AFBL和ABL的字符内容的相似度较高,这就说明AFBL和ABL所对应的待聚类文本“你是几岁呢”和“你有照片吗”拥有较为相似依存句法结构,这样在后续的聚类过程中“你是几岁呢”与“你有照片吗”就很可能被归为一类。
然而,对于相对复杂的待聚类文本内容是无法通过直观的观察就得出相似度计算结果的。因此在实际的相似度计算过程中,仍是要通过一定的相似度计算方法完成不同待聚类文本各自句法编码之间的相似度计算过程。
在本发明一实施例中,可通过动态规划方法的方式实现上述的相似度计算过程。具体而言,如图6所示,可包括如下的两个步骤:
步骤1031:计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离。
编辑距离是指一个字符串转成另一个字符串所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越大,两个字符串的相似度越低。若以edi t(i,j)表示第一个长度为i个字符的字符串到另一个的长度为j个字符的字符串的编辑距离,则编辑距离的动态规划公式可表示如下:
if i==0且j==0,edit(i,j)=0;
if i==0且j>0,edit(i,j)=j;
if i>0且j==0,edit(i,j)=i;
if i≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中,当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1;否则,f(i,j)=0。
例如,若要计算“你是几岁呢”和“你有照片吗”各自句法编码AFBL和ABL之间的相似度,根据上述动态规划公式可得到以下矩阵:
0 0 A F B L
0 0 1 2 3 4
A 1 0 1 2 3
B 2 1 1 1 2
L 3 2 2 2 1
其中,矩阵的第一行和第一列分别表示用于计算编辑距离的两个字符串,第一行靠左的第二个0表示横向的字符串为零的情况,第一列靠上的第二个零表示纵向的字符串为零的情况,矩阵左上角的0仅用作矩阵补位。矩阵中的数字为相应横向的字符串与纵向的字符串之间的编辑距离。例如,由于横向零字符串与纵向零字符串之间的编辑距离为零,故矩阵的第二行靠左的第二个值为0;由于字符串“A”转成纵向零字符串仅需要1次字符插入操作,故第二行靠左的第三个值为1;横向字符串“AFBL”转成纵向字符串“AB”需要2次字符删除操作,因此第四行最右端的数值为2。
以此类推,可得出“AFBL”和“ABL”之间的编辑距离为矩阵最后一行的最后一个数值:1。
若要计算“你是几岁呢”和“几岁了呢你”各自句法编码AFBL和FLLI之间的相似度,则根据上述动态规划公式可得到以下矩阵:
0 0 A F B L
0 0 1 2 3 4
F 1 1 1 2 3
L 2 2 2 2 2
L 3 3 3 3 2
I 4 4 4 4 5
这样得出AFBL和FLLI之间的编辑距离则为矩阵最后一行的最后一个数值:3。
步骤1032:根据编辑距离确定该一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度。编辑距离的值越大,该一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度越低。
如前所述,两个字符串之间的编辑距离越大,二者的相似度越低,但对于相似度的具体数值量化方式可由开发者自行定义,本发明对相似度的具体数值量化方式不做限定。
在本发明一实施例中,考虑到两个文本的句法编码之间编辑距离的最大值是由其中较长的句法编码的字符长度决定的,因此当两个文本的句法编码的字符长度不同时,该两个文本的句法编码之间的相似度的数值量化方式可为1-编辑距离/(该两个文本的句法编码中较长的句法编码的字符长度)。例如,“你是几岁呢”和“你有照片吗”各自句法编码AFBL和ABL的相似度可量化定义为1-编辑距离/“你是几岁呢”和“几岁了呢你”的中较长句法编码的字符长度,即1-1/4=0.75。而当两个文本的句法编码长度相同时,则二者之间的相似度可为1-编辑距离/(该两个文本中任一个的句法编码的字符长度)。以此类推可得出“你是几岁呢”、“几岁了呢你”和“你有照片吗”分别对应的句法编码AFBL、FLLI和ABL之间两两对比的相似度结果,如下表所示。
相似度对比项 | 相似度数值 |
(你是几岁呢,AFBL),(几岁了呢你,FLLI) | 0.25 |
(你是几岁呢,AFBL),(你有照片吗,ABL) | 0.75 |
(几岁了呢你,FLLI),(你有照片吗,ABL) | 0.25 |
在本发明一实施例中,若文本库中待聚类文本的句法编码为基于依存句法树的M个树遍历方法转化而来(M为大于或等于2的整数),则一个待聚类文本可能会对应由M个树遍历方法得出的M个句法编码。由于基于不同种树遍历方法得出的两个待聚类文本的句法编码之间不具备相似度可比性,因此如图7所示,本发明一实施例提供一种计算文本库中待聚类文本的句法编码之间的相似度的方法,包括:步骤1031’:计算一个待聚类文本与另一个待聚类文本的M个基于同一种树遍历方法得出的两个句法编码之间的编辑距离。
步骤1032’:根据每个所述编辑距离得出所述基于同一种树遍历方法得出的两个句法编码之间的相似度。
步骤1033’:将得到的M个所述相似度取平均值以作为所述一个待聚类文本与所述另一个待聚类文本之间的相似度。
例如,待聚类文本A基于L1树遍历方法得出的句法编码为A1,基于L2树遍历方法得出的句法编码为A2;待聚类文本B基于L1树遍历方法得出的句法编码为B1,基于L2树遍历方法得出的句法编码为B2。当要计算待聚类文本A与待聚类文本B之间句法编码的相似度时,首先要计算A1和B1之间的相似度Q1,因为A1和B1是基于同一种树遍历方法L1得出的,基于不同种树遍历方法得出的两个句法编码没有可比性;然后计算A2和B2之间的相似度Q2;最后取Q1和Q2的平均值作为待聚类文本A和待聚类文本B之间句法编码的相似度。这样可保证两个待聚类文本的每个相似度的计算结果都是基于同一种树遍历方法得出,且最终得到的相似度平均值是基于所有树遍历方法得出的,相似度的最终计算结果更为全面和准确。
步骤104:根据相似度的计算结果对文本库中的待聚类文本进行聚类。
根据文本库中所有待聚类文本各自句法编码之间的相似度计算结果便可对待聚类文本在依存句法层面上进行聚类,两个待聚类文本的句法编码之间的相似度越高,该两个待聚类文本归为一类的可能性就越大。
以上面提到的三个待聚类文本为例,由于“你是几岁呢”与“你有照片吗”的句法编码的相似度较高,因此“你是几岁呢”、“几岁了呢你”和“你有照片吗”三者在依存句法层面上的聚类结果可如下表所示:
聚类编号 | 待聚类文本内容 | 句法编码 |
Cluster_0 | 你有照片吗 | ABL |
Cluster_0 | 你是几岁呢 | AFBL |
Cluster_1 | 几岁了呢你 | FLLI |
在本发明一实施例中,可根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类。具体而言,如图8所示,该密度聚类方法可包括如下步骤:
步骤1041:将每个待聚类文本转化为向量空间中的点。
待聚类文本为文本信息形式,为了进行后续的密度聚类处理,需要将处于文本信息形式的待聚类文本转化为可进行数学处理的结构形式,将每个待聚类文本转化为向量空间中的点,即每个待聚类文本对应向量空间中的一个点。应当理解,具体的转换形式可采用向量空间模型(VSM:Vector Space Model)实现,在此不再赘述。
步骤1042:在向量空间中确定一个密度聚类中心点,其中密度聚类中心点的局部密度大于周围的邻居点,且密度聚类中心点距离更高局部密度的点的距离大于第一预设值。该第一预设值的具体大小可由开发人员根据实际需要调整,本发明对此不做限定。
具体而言,密度聚类中心点可通过如下方法获得:
(1)当前点i的局部密度ρi公式:
其中,dij表示点j距离当前点i的距离;dc表示截断距离,可由开发者自定义;由此可见,局部密度ρi所表示的其实是距离当前点i的距离在截断距离之内的点的数量,通过该数量来描述当前点i的局部密度。
(2)当前点到具有更高局部密度的点的距离δi公式:
假设表示的一个降序排列下标序,即将按照降序排列,为按照降序排列后的下标排序,即满足:
此时,所对应的点具有最大的局部密度,所对应的点的局部密度也肯定大于周围的邻居点,因此可被直接确定为一个密度聚类中心点;若所对应的点的局部密度也大于周围的邻居点,且所对应的点距离更高局部密度的点的距离都大于第一预设值,即大于第一预设值,则说明所对应的点也为一个密度聚类中心点。
在本发明一实施例中,考虑到文本库中可能存在一些无意义文本甚至错误的文本,这些文本转化到向量空间后所对应的点是孤立的异常点,那么即使这些孤立的点距离更高局部密度的点的距离也大于第一预设值,也并不需要把这些孤立的异常点作为一个单独的聚类。为了过滤掉这些孤立的异常点的聚类,可以设置为当前点的ρi的值也较大时,才将当前点作为密度聚类中心点。密度聚类中心点的局部密度ρi的衡量办法可包括:密度聚类中心点的局部密度大于第二预设值;或密度聚类中心点的局部密度与所述密度聚类中心点距离更高局部密度的点的距离的乘积大于第三预设值。但应当理解,上述第二预设值和第三预设值的具体大小以及密度聚类中心点的局部密度ρi的衡量办法均可由开发人员自定义,本发明对此不做限定。
步骤1043:将与密度聚类中心点所对应待聚类文本的句法编码的相似度大于预设阈值的待聚类文本归为一个聚类。应当理解,该相似度的预设阈值的大小也可由开发人员根据实际需要调整,本发明对此同样不做限定。
在本发明一实施例中,当采用密度聚类方法对文本库中的待聚类文本进行聚类时,可将密度聚类中心点的局部密度高于第一密度阈值的聚类中所包括的待聚类文本定义为热门句法,将密度聚类中心点的局部密度低于第二密度阈值的聚类中所包括的待聚类文本定义为冷门句法。例如在日常生活中当问及年龄问题时,常见的热门句法为“你是几岁呢?”,而“几岁了呢你”则为很少被人使用的冷门句法,这与本发明上述实施例所得出的文本聚类结果也是相对应的。应当理解,用于确定热门句法和冷门句法的第一密度阈值和第二密度阈值的具体大小可由开发人员根据实际需要调整,本发明对此同样不做限定。
在本发明一实施例中,考虑到社会语言环境的不断丰富,还可随时间顺序更新文本库中的待聚类文本来得到具有新的依存句法的文本聚类,例如定期更新网络热门用语和新闻热点用语,然后对比更新后的待聚类文本的聚类结果与更新前的待聚类文本的聚类结果,将更新后新出现的文本聚类定义为新句法聚类,和/或将更新后消失的文本聚类定义为过气句法聚类,从而使得文本聚类结果能够体现社会语言环境的更新趋势。例如,更新前的文本库为基于2015年获取的文本所生成,将该2015年的文本库中的文本作为待聚类文本按照本发明实施例所提供的文本聚类方法得到了A、B、C、D四个聚类(分别对应4种句法类型);当时间到达2016年底时,文本库中包含了2015年和2016年两年时间内获取的文本内容,此时可将2016年获取的文本作为待聚类文本按照本发明实施例所提供的文本聚类方法得到B、C、D、E四个聚类;通过对比2015年的待聚类文本的聚类结果和2016年的待聚类文本的聚类结果,可知E聚类是2016年新出现的,所以说E聚类是2016年出现的新句法聚类,而A聚类在2016年的聚类结果中消失了,则说明A聚类为过气句法聚类。
应当理解,对于文本库中的待聚类文本的更新机制可由开发人员根据实际需要进行调整,例如可在每次完成文本聚类后进行更新,也可定期更新,还可每次将文本库更新为某一段时间内获取的待聚类文本,本发明对文本库中的待聚类文本的具体更新机制并不做具体限定。
应当理解,在本发明的其他实施例中,也可采用除密度聚类方法外的其他聚类方法对文本库中的待聚类文本进行聚类,本发明对所采用的具体聚类方法并不做限定。
在本发明另一实施例中,考虑到待聚类文本中的词语可能存在句法分析无意义的词语或预设禁止词,例如叠字过多的词语“哈哈哈哈哈”或不文明词语等,因此在识别文本库的每个待聚类文本中词语之间的依存句法关系之前,还可以去掉这些句法分析无意义词语或预设禁止词,以对待聚类文本中的词语进行过滤。在一进一步实施例中,句法分析无意义词语可被定义为已知词语库中所不包含的词语。该已知词语库可通过预学习过程获得。预设禁止词可由开发者自定义,例如一些预设的敏感词、不文明词或停用词等。然而,本发明对句法分析无意义词语和预设禁止词的具体内容并不做限定。
由此可见,通过采用本发明实施例提供的一种文本聚类方法,首先识别待聚类文本中词语之间的依存句法关系,并将所识别出的依存句法关系转化成句法编码中的字符,再通过对比不同待聚类文本的句法编码之间的相似度,实现了对不同待聚类文本在依存句法层面上的聚类,解决了现有技术中的文本聚类方式仅能实现基于文本字面含义进行聚类,而无法在依存句法的层面上进行聚类的问题。
此外,还应当理解,本发明实施例所提供技术方案的有益效果还可体现在与基于字面含义的文本聚类的结合上。例如可将文本库中的待聚类文本先基于字面含义进行一级文本聚类,然后再对一级文本聚类中的待聚类文本采用本发明实施例所提供的技术方案在依存句法层面上进行二级文本聚类,这样便可得到字面含义相近的一级文本聚类中的热门句法和冷门句法,从而实现了更细化的文本聚类,提高了最终文本聚类结果对文本信息的组织、摘要和导航的指导性。
应当注意,尽管出于简化说明的目的将本发明所述的方法表示和描述为一连串动作,但是应理解和认识到要求保护的主题内容将不受这些动作的执行顺序所限制,因为一些动作可以按照与这里示出和描述的顺序不同的顺序出现或者与其它动作并行地出现,同时一些动作还可能包括若干子步骤,而这些子步骤之间可能出现时序上交叉执行的可能。另外,可能并非所有图示的动作是实施根据所附权利要求书所述的方法所必须的。再者,前述步骤的描述不排除该方法还可以包括可能取得附加效果的附加步骤。还应当理解,不同的实施方式或者流程中描述的方法步骤可以相互组合或者替换。
图9所示为本发明一实施例提供的一种文本聚类装置90的结构示意图。如图9所示,该文本聚类装置90包括:
依存句法分析模块901,配置为识别文本库的每个待聚类文本中词语之间的依存句法关系;
句法编码模块902,配置为将每个待聚类文本中存在的依存句法关系转化为句法编码;
相似度计算模块903,配置为计算文本库中不同待聚类文本的句法编码之间的相似度;以及
聚类模块904,根据相似度计算模块的计算结果对文本库中的待聚类文本进行聚类。
在本发明一实施例中,如图10所示,该依存句法分析模块901可包括:
分词单元9011,配置为识别文本库中每个待聚类文本中的词语和词语的词性;以及
识别单元9012,配置为基于每个待聚类文本中每个词语的词性识别词语之间的依存句法关系。
在本发明一实施例中,句法编码模块902进一步配置为,所述预设转化方法包括:每个待聚类文本中的每个依存句法关系对应所述句法编码中的至少一个字符;和/或将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码。
在本发明一实施例中,如图10所示,句法编码模块902包括:
依存句法树构建单元9021,配置为将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
遍历编码单元9022,配置为根据依存句法树的至少一种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为至少一种句法编码;或
句法编码模块902进一步配置为:将每个待聚类文本中存在的依存句法关系按照从左到右或从右到左的单向转化顺序转化为句法编码。
在本发明一实施例中,如图10所示,相似度计算模块903可包括:
编辑距离计算单元9031,配置为计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离;以及
相似度计算单元9032,配置为根据编辑距离计算单元的计算结果确定一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度,其中编辑距离的值越大,所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度越低。
在本发明一实施例中,当依存句法树构建单元9021配置为将一个待聚类文本中存在的依存句法关系转化成依存句法树;遍历编码单元9022配置为根据所述依存句法树的M种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为M种句法编码,M为大于或等于2的整数时,
编辑距离计算单元9031可进一步配置为:计算一个待聚类文本与另一个待聚类文本的M个基于同一种树遍历方法得出的两个句法编码之间的编辑距离。
相似度计算单元9032可进一步配置为,根据每个所述编辑距离得出所述基于同一种树遍历方法得出的两个句法编码之间的相似度;以及将得到的M个所述相似度取平均值以作为所述一个待聚类文本与所述另一个待聚类文本之间的相似度。
在本发明一实施例中,该文本聚类装置90可进一步包括:
过滤模块,配置为在识别文本库的每个待聚类文本中词语之间的依存句法关系之前,去掉所述待聚类文本中的句法分析无意义词语和/或预设禁止词。
在本发明一实施例中,聚类模块904可进一步配置为:根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类。如图10所示,该聚类模块904可包括:
转化单元9041,配置为将每个待聚类文本转化为向量空间中的点;
密度聚类中心点获取单元9042,配置为在向量空间中确定一个密度聚类中心点,其中所述密度聚类中心点的局部密度大于周围的邻居点,且所述密度聚类中心点距离更高局部密度的点的距离大于第一预设值或所述密度聚类中心点拥有最大的局部密度;以及
聚类处理单元9043,配置为将与所述密度聚类中心点所对应待聚类文本的句法编码的相似度大于预设阈值的待聚类文本归为一个聚类。
在一进一步实施例中,聚类模块904可进一步配置为:将密度聚类中心点的局部密度高于第一密度阈值的聚类中所包括的待聚类文本定义为热门句法;和/或将密度聚类中心点的局部密度低于第二密度阈值的聚类中所包括的待聚类文本定义为冷门句法。
在本发明一实施例中,该文本聚类装置90可进一步包括:
更新模块,配置为随时间顺序更新所述文本库中的待聚类文本;以及
对比模块,配置为对比更新后的待聚类文本的聚类结果与更新前的待聚类文本的聚类结果,将更新后新出现的文本聚类定义为新句法聚类,和/或将更新后消失的文本聚类定义为过气句法聚类。
应当理解,上述实施例所提供的文本聚类装置90中记载的每个模块或单元都与前述的一个方法步骤相对应。由此,前述的方法步骤描述的操作和特征同样适用于装置90及其中所包含的对应的模块和单元,重复的内容在此不再赘述。
本发明的教导还可以实现为一种计算机可读存储介质的计算机程序产品,包括计算机程序代码,当计算机程序代码由处理器执行时,其使得处理器能够按照本发明实施方式的方法来实现如本文实施方式所述的文本聚类方法。计算机存储介质可以为任何有形媒介,例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。
应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。例如当不需要对文本库进行更新或不需要过滤文本库中的待聚类文本时,也可不包括更新模块或过滤模块。
还应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
Claims (28)
1.一种文本聚类方法,其特征在于,包括:
识别文本库的每个待聚类文本中词语之间的依存句法关系;
将每个待聚类文本中存在的依存句法关系转化为句法编码;
计算文本库中不同待聚类文本的句法编码之间的相似度;以及
根据相似度的计算结果对文本库中的待聚类文本进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述识别文本库的每个待聚类文本中词语之间的依存句法关系包括:
识别每个待聚类文本中的词语和词语的词性;
基于每个待聚类文本中每个词语的词性识别词语之间的依存句法关系。
3.根据权利要求2所述的方法,其特征在于,所述识别每个待聚类文本中的词语和词语的词性包括:
识别一个待聚类文本中每个字的状态值,其中所述状态值为以下几项中的一项:词语开头字、词语中间字、词语结尾字和独立成词;
根据状态值的识别结果将所述一个待聚类文本分成多个词语;以及
标注所述一个待聚类文本中词语的词性。
4.根据权利要求1所述的方法,其特征在于,采用依存句法分析方法识别文本库的每个待聚类文本中词语之间的依存句法关系,其中所述依存句法分析方法包括以下几项中的一项:神经网络依存句法方法、条件随机场依存句法方法和最大熵依存句法方法。
5.根据权利要求1至4中任一所述的方法,其特征在于,在识别文本库的每个待聚类文本中词语之间的依存句法关系之前,进一步包括:
去掉所述待聚类文本中的句法分析无意义词语和/或预设禁止词。
6.根据权利要求1所述的方法,其特征在于,所述将每个待聚类文本中存在的依存句法关系转化为句法编码包括:
每个待聚类文本中的每个依存句法关系对应所述句法编码中的至少一个字符;和/或
将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码。
7.根据权利要求6所述的方法,其特征在于,所述将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码包括:
将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及根据所述依存句法树的至少一种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为至少一种句法编码;或
将每个待聚类文本中存在的依存句法关系按照从左到右或从右到左的单向转化顺序转化为句法编码。
8.根据权利要求7所述的方法,其特征在于,所述树遍历方法包括以下几项中的一种:前序遍历方法、后序遍历方法和中序遍历方法。
9.根据权利要求1所述的方法,其特征在于,所述计算文本库中不同待聚类文本的句法编码之间的相似度包括:
计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离;
根据所述编辑距离确定所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度。
10.根据权利要求9所述的方法,其特征在于,当所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码的字符长度相同时,所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度=1-编辑距离/其中任一个待聚类文本的句法编码的字符长度;
当所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码的字符长度不同时,所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度=1-编辑距离/所述一个待聚类文本与另一个待聚类文本的句法编码中较长的句法编码的字符长度。
11.根据权利要求9所述的方法,其特征在于,所述将每个待聚类文本中存在的依存句法关系转化为句法编码包括:
将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
根据所述依存句法树的M种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为M种句法编码,M为大于或等于2的整数;
其中,所述计算文本库中待聚类文本的句法编码之间的相似度包括:
计算一个待聚类文本与另一个待聚类文本的M个基于同一种树遍历方法得出的两个句法编码之间的编辑距离;
根据每个所述编辑距离得出所述基于同一种树遍历方法得出的两个句法编码之间的相似度;以及
将得到的M个所述相似度取平均值以作为所述一个待聚类文本与所述另一个待聚类文本之间的相似度。
12.根据权利要求9所述的方法,其特征在于,所述计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离包括:
采用动态规划方法计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离。
13.根据权利要求1所述的方法,其特征在于,所述根据相似度的计算结果对文本库中的待聚类文本进行聚类包括:
根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类。
14.根据权利要求13所述的方法,其特征在于,所述根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类包括:
将每个待聚类文本转化为向量空间中的点;
在向量空间中确定一个密度聚类中心点,其中所述密度聚类中心点的局部密度大于周围的邻居点,且所述密度聚类中心点距离更高局部密度的点的距离大于第一预设值或所述密度聚类中心点拥有最大的局部密度;以及
将与所述密度聚类中心点所对应待聚类文本的句法编码的相似度大于预设阈值的待聚类文本归为一个聚类。
15.根据权利要求14所述的方法,其特征在于,所述密度聚类中心点的局部密度大于第二预设值;或
所述密度聚类中心点的局部密度与所述密度聚类中心点距离更高局部密度的点的距离的乘积大于第三预设值。
16.根据权利要求14所述的方法,其特征在于,进一步包括:
将密度聚类中心点的局部密度高于第一密度阈值的聚类中所包括的待聚类文本定义为热门句法;和/或
将密度聚类中心点的局部密度低于第二密度阈值的聚类中所包括的待聚类文本定义为冷门句法。
17.根据权利要求1所述的方法,其特征在于,进一步包括:
随时间顺序更新所述文本库中的待聚类文本;以及
对比更新后的待聚类文本的聚类结果与更新前的待聚类文本的聚类结果,将更新后新出现的文本聚类定义为新句法聚类,和/或将更新后消失的文本聚类定义为过气句法聚类。
18.一种文本聚类装置,其特征在于,包括:
依存句法分析模块,配置为识别文本库的每个待聚类文本中词语之间的依存句法关系;
句法编码模块,配置为将每个待聚类文本中存在的依存句法关系转化为句法编码;
相似度计算模块,配置为计算文本库中不同待聚类文本的句法编码之间的相似度;以及
聚类模块,根据所述相似度计算模块的计算结果对文本库中的待聚类文本进行聚类。
19.根据权利要求18所述的装置,其特征在于,所述依存句法分析模块包括:
分词单元,配置为识别文本库中每个待聚类文本中的词语和词语的词性;以及
识别单元,配置为基于每个待聚类文本中每个词语的词性识别词语之间的依存句法关系。
20.根据权利要求18或19所述的装置,其特征在于,进一步包括:
过滤模块,配置为在识别文本库的每个待聚类文本中词语之间的依存句法关系之前,去掉所述待聚类文本中的句法分析无意义词语和/或预设禁止词。
21.根据权利要求18所述的装置,其特征在于,所述句法编码模块进一步配置为,所述预设转化方法包括:
每个待聚类文本中的每个依存句法关系对应所述句法编码中的至少一个字符;和/或
将每个待聚类文本中存在的依存句法关系按照预设的转化顺序转化为句法编码。
22.根据权利要求21所述的装置,其特征在于,所述句法编码模块包括:
依存句法树构建单元,配置为将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
遍历编码单元,配置为根据所述依存句法树的至少一种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为至少一种句法编码;或
所述句法编码模块进一步配置为:将每个待聚类文本中存在的依存句法关系按照从左到右或从右到左的单向转化顺序转化为句法编码。
23.根据权利要求18所述的装置,其特征在于,所述相似度计算模块包括:
编辑距离计算单元,配置为计算一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的编辑距离;以及
相似度计算单元,配置为根据所述编辑距离计算单元的计算结果确定所述一个待聚类文本的句法编码与另一个待聚类文本的句法编码之间的相似度。
24.根据权利要求23所述的装置,其特征在于,所述句法编码模块包括:
依存句法树构建单元,配置为将一个待聚类文本中存在的依存句法关系转化成依存句法树;以及
遍历编码单元,配置为根据所述依存句法树的M种树遍历方法将所述一个待聚类文本中存在的依存句法关系转化为M种句法编码,M为大于或等于2的整数;
其中,所述相似度计算模块的编辑距离计算单元进一步配置为:计算一个待聚类文本与另一个待聚类文本的M个基于同一种树遍历方法得出的两个句法编码之间的编辑距离;
所述相似度计算单元进一步配置为,根据每个所述编辑距离得出所述基于同一种树遍历方法得出的两个句法编码之间的相似度;以及将得到的M个所述相似度取平均值以作为所述一个待聚类文本与所述另一个待聚类文本之间的相似度。
25.根据权利要求18所述的装置,其特征在于,所述聚类模块进一步配置为:根据相似度的计算结果,采用密度聚类方法对文本库中的待聚类文本进行聚类。
26.根据权利要求25所述的装置,其特征在于,所述聚类模块包括:
转化单元,配置为将每个待聚类文本转化为向量空间中的点;
密度聚类中心点获取单元,配置为在向量空间中确定一个密度聚类中心点,其中所述密度聚类中心点的局部密度大于周围的邻居点,且所述密度聚类中心点距离更高局部密度的点的距离大于第一预设值或所述密度聚类中心点拥有最大的局部密度;以及
聚类处理单元,配置为将与所述密度聚类中心点所对应待聚类文本的句法编码的相似度大于预设阈值的待聚类文本归为一个聚类。
27.根据权利要求25所述的装置,其特征在于,所述聚类模块进一步配置为:
将密度聚类中心点的局部密度高于第一密度阈值的聚类中所包括的待聚类文本定义为热门句法;和/或
将密度聚类中心点的局部密度低于第二密度阈值的聚类中所包括的待聚类文本定义为冷门句法。
28.根据权利要求18所述的装置,其特征在于,进一步包括:
更新模块,配置为随时间顺序更新所述文本库中的待聚类文本;以及
对比模块,配置为对比更新后的待聚类文本的聚类结果与更新前的待聚类文本的聚类结果,将更新后新出现的文本聚类定义为新句法聚类,和/或将更新后消失的文本聚类定义为过气句法聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610539157.0A CN106202395B (zh) | 2016-07-11 | 2016-07-11 | 文本聚类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610539157.0A CN106202395B (zh) | 2016-07-11 | 2016-07-11 | 文本聚类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202395A true CN106202395A (zh) | 2016-12-07 |
CN106202395B CN106202395B (zh) | 2019-12-31 |
Family
ID=57473057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610539157.0A Active CN106202395B (zh) | 2016-07-11 | 2016-07-11 | 文本聚类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202395B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844353A (zh) * | 2016-12-30 | 2017-06-13 | 语联网(武汉)信息技术有限公司 | 一种可预测交互翻译方法 |
CN106934005A (zh) * | 2017-03-07 | 2017-07-07 | 重庆邮电大学 | 一种基于密度的文本聚类方法 |
CN107784115A (zh) * | 2017-11-09 | 2018-03-09 | 福建省特种设备检验研究院 | 一种基于编辑距离算法的特种设备故障分析方法及系统 |
CN108536674A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种基于语义的典型意见聚合方法 |
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN110209818A (zh) * | 2019-06-04 | 2019-09-06 | 南京邮电大学 | 一种面向语义敏感词句的分析方法 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN116050375A (zh) * | 2022-11-23 | 2023-05-02 | 广东铭太信息科技有限公司 | 政策文件相似度比较方法、装置、系统及电子设备 |
CN116402019A (zh) * | 2023-04-21 | 2023-07-07 | 华中农业大学 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079072A (zh) * | 2007-06-22 | 2007-11-28 | 中国科学院研究生院 | 一种文本聚类元学习方法及装置 |
US20090048830A1 (en) * | 2002-06-28 | 2009-02-19 | Conceptual Speech Llc | Conceptual analysis driven data-mining and dictation system and method |
CN101814065A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 句法分析装置及句法分析方法 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN105653620A (zh) * | 2015-12-25 | 2016-06-08 | 上海智臻智能网络科技股份有限公司 | 智能问答系统的日志分析方法及装置 |
-
2016
- 2016-07-11 CN CN201610539157.0A patent/CN106202395B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090048830A1 (en) * | 2002-06-28 | 2009-02-19 | Conceptual Speech Llc | Conceptual analysis driven data-mining and dictation system and method |
CN101079072A (zh) * | 2007-06-22 | 2007-11-28 | 中国科学院研究生院 | 一种文本聚类元学习方法及装置 |
CN101814065A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 句法分析装置及句法分析方法 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN105653620A (zh) * | 2015-12-25 | 2016-06-08 | 上海智臻智能网络科技股份有限公司 | 智能问答系统的日志分析方法及装置 |
Non-Patent Citations (3)
Title |
---|
刘勘等: "基于关键词的科技文献聚类研究", 《图书情报工作》 * |
张超: "微博客话题评论的聚类分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
徐海洲: "自动问答系统中问句相似度计算方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844353A (zh) * | 2016-12-30 | 2017-06-13 | 语联网(武汉)信息技术有限公司 | 一种可预测交互翻译方法 |
CN106934005A (zh) * | 2017-03-07 | 2017-07-07 | 重庆邮电大学 | 一种基于密度的文本聚类方法 |
CN107784115A (zh) * | 2017-11-09 | 2018-03-09 | 福建省特种设备检验研究院 | 一种基于编辑距离算法的特种设备故障分析方法及系统 |
CN107784115B (zh) * | 2017-11-09 | 2019-01-22 | 福建省特种设备检验研究院 | 一种基于编辑距离算法的特种设备故障分析方法及系统 |
CN108536674A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种基于语义的典型意见聚合方法 |
CN108763402B (zh) * | 2018-05-22 | 2021-08-27 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN110209818A (zh) * | 2019-06-04 | 2019-09-06 | 南京邮电大学 | 一种面向语义敏感词句的分析方法 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN111831804B (zh) * | 2020-06-29 | 2024-04-26 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN116050375A (zh) * | 2022-11-23 | 2023-05-02 | 广东铭太信息科技有限公司 | 政策文件相似度比较方法、装置、系统及电子设备 |
CN116050375B (zh) * | 2022-11-23 | 2024-01-30 | 广东铭太信息科技有限公司 | 政策文件相似度比较方法、装置、系统及电子设备 |
CN116402019A (zh) * | 2023-04-21 | 2023-07-07 | 华中农业大学 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
CN116402019B (zh) * | 2023-04-21 | 2024-02-02 | 华中农业大学 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106202395B (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202395A (zh) | 文本聚类方法和装置 | |
Neelakandan et al. | A gradient boosted decision tree-based sentiment classification of twitter data | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
Snyder et al. | Interactive learning for identifying relevant tweets to support real-time situational awareness | |
CN111708874A (zh) | 基于复杂意图智能识别的人机交互问答方法与系统 | |
Kirk | Thoughtful machine learning with Python: A test-driven approach | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
Maharjan et al. | A multi-task approach to predict likability of books | |
CN109933602A (zh) | 一种自然语言与结构化查询语言的转换方法及装置 | |
CN106909537B (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
Cui et al. | Sliding selector network with dynamic memory for extractive summarization of long documents | |
CN108984661A (zh) | 一种知识图谱中实体对齐方法和装置 | |
CN110069636B (zh) | 融合依存关系与篇章修辞关系的事件时序关系识别方法 | |
CN115269857A (zh) | 一种基于文档关系抽取的知识图谱构建方法和装置 | |
CN109472021A (zh) | 基于深度学习的医学文献中关键句筛选方法及装置 | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
Wu et al. | WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
Yao | Design and simulation of integrated education information teaching system based on fuzzy logic | |
Bhattacharjee | Capsule network on social media text: An application to automatic detection of clickbaits | |
CN114661616A (zh) | 目标代码的生成方法及装置 | |
CN114662496A (zh) | 信息识别方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |