CN108153726A - 文本处理方法和装置 - Google Patents

文本处理方法和装置 Download PDF

Info

Publication number
CN108153726A
CN108153726A CN201611104313.7A CN201611104313A CN108153726A CN 108153726 A CN108153726 A CN 108153726A CN 201611104313 A CN201611104313 A CN 201611104313A CN 108153726 A CN108153726 A CN 108153726A
Authority
CN
China
Prior art keywords
text
label
feature vector
polysemant
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611104313.7A
Other languages
English (en)
Inventor
郭秦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611104313.7A priority Critical patent/CN108153726A/zh
Publication of CN108153726A publication Critical patent/CN108153726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本处理方法和装置,用于方便对文本数据进行分类处理。本发明实施例方法包括:获取分类文本,对所述分类文本进行分词,得到分词结果;根据所述分词结果构建目标特征向量;使用预先建立的SVM分类器对所述目标特征向量进行分析,得到目标标签,其中所述SVM分类器根据至少两类特征向量和标签的对应关系建立,所述特征向量由文本信息构建得到,不同类的对应关系的标签不同。因该SVM分类器的建立用到了文本信息,从而可对分类文本进行分类,分类的结果即得到目标标签,即SVM分类器输出目标标签用于对该分类文本进行标识,从而分类文本通过该目标标签得到了唯一标识。

Description

文本处理方法和装置
技术领域
本发明涉及数据处理领域,尤其涉及一种文本处理方法和装置。
背景技术
在文本分析领域,一段语句往往有多种理解,例如在该语句包括歧义词时,该歧义词包括多个含义,但在该语句中一般只有一个含义,机器对该语句进行分析时,需要确定出该歧义词在该语句中的确切含义。
现有的方法中,一般是利用消除歧义词典对该问题进行解决。即,对于一个多义词,构造词语的上下文信息,对于文本,根据出现的词典中的词语来判断是否是哪种含义。
现有确定语句中歧义词的含义的方法中,需要依赖消除歧义词典的质量。而消除歧义词典的质量则需要人工大量的维护。如果词典的质量不够好,那么会导致在消除歧义时,出现歧义词含义确定不准的情况。
发明内容
本发明实施例提供了一种文本处理方法和装置,用于方便对文本数据进行分类处理。
为了解决上述技术问题,本发明实施例提供了以下技术方案:
一种文本处理方法,包括:
获取分类文本,
对所述分类文本进行分词,得到分词结果;
根据所述分词结果构建目标特征向量;
使用预先建立的SVM分类器对所述目标特征向量进行分析,得到目标标签,其中所述SVM分类器根据至少两类特征向量和标签的对应关系建立,所述特征向量由文本信息构建得到,不同类的对应关系的标签不同。
为了解决上述技术问题,本发明实施例还提供了以下技术方案:
一种文本处理装置,包括:
第一获取单元,用于获取分类文本,
第一分词单元,用于对所述分类文本进行分词,得到分词结果;
第一构建单元,用于根据所述分词结果构建目标特征向量;
分析单元,用于使用预先建立的SVM分类器对所述目标特征向量进行分析,得到目标标签,其中所述SVM分类器根据至少两类特征向量和标签的对应关系建立,所述特征向量由文本信息构建得到,不同类的对应关系的标签不同。
从以上技术方案可以看出,本发明实施例具有以下优点:
获取分类文本后,对分类文本进行分词,得到分词结果;然后,根据分词结果构建目标特征向量。从而,使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签,其中SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同。因该SVM分类器的建立用到了文本信息,从而可对分类文本进行分类,分类的结果即得到目标标签,即SVM分类器输出目标标签用于对该分类文本进行标识,从而分类文本通过该目标标签得到了唯一标识,在该SVM用于对文本中的多义词进行含义确定时,即该目标标签表示多义词的预设含义时,该分类文本因包含该多义词产生的歧义,在SVM分类器输出该目标标签后,分类文本的多义词的含义得到了确定,从而分类文本的歧义得到了消除。
附图说明
图1为本发明实施例提供的一种文本处理方法的方法流程图;
图2为本发明实施例提供的一种文本处理方法的方法流程图;
图3为本发明实施例提供的一种文本处理方法的方法流程图;
图4为本发明实施例提供的一种文本处理方法的方法流程图;
图5为图3和图4所示实施例涉及的SVM分类示意图;
图6为本发明实施例提供的一种文本处理装置的结构示意图;
图7为本发明实施例提供的一种文本处理装置的结构示意图;
图8为本发明实施例提供的一种文本处理系统的结构示意图。
具体实施方式
本发明实施例提供了一种文本处理方法、装置和系统,用于方便对文本数据进行分类处理。
图1为本发明实施例提供的一种文本处理方法的方法流程图。参考上述内容,参阅图1,本发明实施例的方法包括:
步骤101:获取分类文本,
步骤102:对分类文本进行分词,得到分词结果;
步骤103:根据分词结果构建目标特征向量;
步骤104:使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签,其中SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同。
可选地,
使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签之后,方法还包括:
将目标标签赋予分类文本。
可选地,
分类文本包括多义词,SVM分类器的不同标签用于表示多义词的不同的含义,目标标签表示多义词在分类文本中的含义。
可选地,
获取分类文本,包括:
从文本数据中筛选出包括多义词的分类文本。
综上所述,获取分类文本后,对分类文本进行分词,得到分词结果;然后,根据分词结果构建目标特征向量。从而,使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签,其中SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同。因该SVM分类器的建立用到了文本信息,从而可对分类文本进行分类,分类的结果即得到目标标签,即SVM分类器输出目标标签用于对该分类文本进行标识,从而分类文本通过该目标标签得到了唯一标识,在该SVM用于对文本中的多义词进行含义确定时,即该目标标签表示多义词的预设含义时,该分类文本因包含该多义词产生的歧义,在SVM分类器输出该目标标签后,分类文本的多义词的含义得到了确定,从而分类文本的歧义得到了消除。
图2为本发明实施例提供的一种文本处理方法的方法流程图。参考上述内容,参阅图2,本发明实施例的方法包括:
步骤201:获取至少两类训练数据,其中训练数据包括文本信息和标签,不同类的训练数据的标签不同;
步骤202:对本文信息进行分词,得到分词结果;
步骤203:根据分词结果构建特征向量;
步骤204:建立特征向量和标签的对应关系,其中,在对应关系中,特征向量所属的文本信息与标签属于同一个训练数据;
步骤205:根据至少两类对应关系建立SVM分类器,其中至少两类对应关系来源于至少两类训练数据。
可选地,
在训练数据中,文本信息包括多义词,标签为多义词在文本信息中的含义。
可以理解,在本发明有的实施例提供的文本处理的方法中,可以同时包括图1和图2所示实施例的方法。其中图2所示的实施例提供的方法,可在图1所示实施例提供的方法之前执行。
综上所述,获取至少两类训练数据,其中训练数据包括文本信息和标签,不同类的训练数据的标签不同。然后,对本文信息进行分词,得到分词结果,根据分词结果构建特征向量。再建立特征向量和标签的对应关系,其中,在对应关系中,特征向量所属的文本信息与标签属于同一个训练数据;从而可根据至少两类对应关系建立SVM分类器,其中至少两类对应关系来源于至少两类训练数据。这样,在对训练数据进行向量化处理后,使用其进行SVM模型训练得到SVM分类器,因该用于训练的向量由文本信息得到,该SVM分类器即具有了对文本进行分类的功能,并为待分类的文本输出标签,以用该标签表示分类结果。在该待分类文本是因包含多次词而产生歧义的文本,该标签对应于该多义词的含义时,经过本发明实施例的方法,该SVM分类器可为该歧义的待分类文本确定一标签,以确定待分类文本的该多义词的含义,消除待分类文本的歧义。
图3为本发明实施例提供的一种文本处理方法的方法流程图。参考上述内容,参阅图3,本发明实施例的方法包括:
步骤301:获取至少两类训练数据。
其中,训练数据包括文本信息和标签,不同类的训练数据的标签不同。
处理设备获取至少两类训练数据,每类训练数据可包括一个或多个训练数据,在每一训练数据中包括文本信息和标签,属于同类的训练数据的标签相同,不同类的训练数据的标签不相同。标签可用于对文本信息进行标识。
其中,文本信息包括但不限于语句信息、文章信息等。标签包括但不限于词语含义、词语感情类别等。
在本发明的实施例中,该训练数据的建立可以是人工建立,然后向处理设备输入该训练数据作为样本,以使得该处理设备进行学习,建立SVM分类器。其中用户可以不用对建立的训练数据进行分类,因为根据标签的不同即表示训练数据属于不同的类。
而该处理设备可为计算机等可处理文本信息的设备。
为了对本发明实施例进行更直观的说明,在本发明实施例中,在每一训练数据中,该训练数据的文本信息包括多义词,该训练数据的标签为该多义词在该文本信息中的含义。
例如,用户构造出两类训练数据,第一类包括一个训练数据,其文本信息为:我开着阳光,驰骋在东非大草原上,其标签为汽车,该标签表示在该文本信息中多义词阳光的含义为汽车;第二类训练数据包括两个训练数据,该两个训练数据的标签为:太阳光线,其文本信息一个为:今天的阳光好刺眼;另一个为:在这个阳光明媚的日子,在该类训练数据中,多义词阳光的含义为太阳光线。用户向处理设备输入该三个训练数据。
步骤302:对本文信息进行分词,得到分词结果。
处理设备为了对文本信息进行分析,需要先对该文本信息进行分词。例如使用分词工具C++的ICTCLAS、Java的Iksegment对获取到的训练数据中的文本信息进行分词。
例如,对文本信息“今天阳光好刺眼”进行分词,得到分词结果“今天^的^阳光^好^刺眼”。其中“^”是用来分割词的。
步骤303:根据分词结果构建特征向量。
为了对文本信息进行数据分析,需要将该文本信息转化成向量,即将文本信息数据化,以使得处理设备可以进行数据处理。为此,将文本信息分词后,可根据分词结果构建特征向量,该特征向量即可表示该文本信息。
例如,具体的构建特征向量的方法是,对步骤301获取的所有的训练数据的文本信息进行分词,使用分词后得到的词语建立词语集合。例如,在文本信息为语句时,对所有语句分词后得到1000个词语,该1000个词语组合为词语集合。然后,将每一语句映射到1000维的向量上。具体的映射方式是,对于语句形式的目标文本信息,进行分词,然后根据词语集合和目标文本信息的词频建立1000维的特征向量,在该向量上,根据该词语集合的词语顺序,若词语集合的一词语在目标文本信息中出现一次,则记为1,出现N次,即为N,出现0次,即为0。其中N为正整数。
例如,假设第一文本信息为句子ABC,第二文本信息为句子ADED,其中A、B、C、D、E分别表示一个词语。这样,由这两个文本信息建立的词语集合包括词语A、B、C、D、E,从而对应的向量为5维的向量。从而,第一文本信息分词后,根据其分词结果构建的特征向量为11100。而第二文本信息分词后,根据其分词结果构建的特征向量为10021。
在本发明有的实施例中,词语集合的规模可能在万级到千万级。而这么大的维度可能会带来维度灾难,从而在构建特征向量后,可能要进行降维。降维是通过卡方检验的方式来进行。例如,所有的输入文本总共有1万词语,但是不是所有的词语都可以作为表达。通过每个词语在两个不同类别之间的分布来找区分度最大的词语,以此构成特征向量。
步骤304:建立特征向量和标签的对应关系。
其中,在对应关系中,特征向量所属的文本信息与标签属于同一个训练数据。
构建了特征向量后,要为该特征向量制定标签,在本发明实施例中,在一训练数据中,根据该训练数据的文本信息构建特征向量后,将该训练数据的标签配置给该特征向量,即建立特征向量和标签的对应关系。
通过对多个不同类的训练数据执行上述方法,本发明实施例产生多个不同类的特征向量和标签的对应关系,不同类的对应关系的标签不同。
步骤305:根据至少两类对应关系建立SVM分类器。
其中至少两类对应关系来源于至少两类训练数据。
根据步骤301获取的至少两类训练数据进过上述步骤的执行后,得到至少两类的对应关系,不同类的对应关系的标签不同。
根据这些对应关系可建立SVM(中文名称:支持向量机,英文全称:Support VectorMachine)分类器。
其中,具体的建立SVM分类器的方法是,构建特征向量后,执行确定分类策略、进行SVM参数选择、进行SVM模型训练、进行SVM训练等建立步骤,从而可建立出SVM分类器。当然,在有的实施例中这些建立步骤可进行调整或删减。
其中,支持向量机,是机器学习中一种分类算法。通过把数据映射到高维空间,可以达到对数据进行分类的目的。
在机器学习中,支持向量机是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。
除了进行线性分类,支持向量机可以使用核技巧,它们的输入隐含映射成高维特征空间,有效地进行非线性分类。
具体来说,在训练数据为两类时,这时,得到属于两类的多个特征向量后,为了将该多个特征向量线性可分,在SVM分类器建立过程中,对训练数据建立特征向量后,该特征向量可能线性不可分,为了解决这个问题,该特征向量会被映射到一个高维可分的向量空间,从而每条训练数据是空间上的一个点。此时因为高维空间可分,所以,存在一个分类面,使得分类面两侧,一侧是一类,另一侧是另一个类。如图5所示,其为将训练数据映射到高维向量空间后的示意图,其中三角形的点502属于一类,对应一标签。圆形的点503属于另一类,对应另一标签,分类面501的两侧分别代表两个类别。
在有的实施例中,训练数据为三类或三类以上,此时这些训练数据包括三个或三个以上的标签,但是SVM算法是二分分类算法,这时建立的SVM分类器要进行分类策略的选择,以实现使用二分分类方法对两个以上的类别进行分类。例如,选择Libsvm或liblinear的多分类策略,或者选择DAG SVM的分类策略。
综上所述,获取至少两类训练数据,其中训练数据包括文本信息和标签,不同类的训练数据的标签不同;然后,对本文信息进行分词,得到分词结果;根据分词结果构建特征向量;再建立特征向量和标签的对应关系,其中,在对应关系中,特征向量所属的文本信息与标签属于同一个训练数据;从而可根据至少两类对应关系建立SVM分类器,其中至少两类对应关系来源于至少两类训练数据。这样,在对训练数据进行向量化处理后,使用其进行SVM模型训练得到SVM分类器,因该用于训练的向量由文本信息得到,该SVM分类器即具有了对文本进行分类的功能,并为待分类的文本输出标签,以用该标签表示分类结果。在该待分类文本是因包含多次词而产生歧义的文本,该标签对应于该多义词的含义时,经过本发明实施例的方法,该SVM分类器可为该歧义的待分类文本确定一标签,以确定待分类文本的该多义词的含义,消除待分类文本的歧义。
上述为建立SVM分类器的方法,建立该SVM分类器后,处理设备即可使用该SVM分类器进行文本分析。图4即描述了使用SVM分类器进行文本分析的过程,参考图4,本发明实施例的文本处理方法包括:
步骤401:获取分类文本。
处理设备获取分类文本。该处理设备可为计算机等可处理文本信息的设备。
其中该分类文本包括但不限于语句文本、文章等。
具体的获取分类文本的方式例如可以是用户向处理设备输入该分类文本,或者,处理设备执行抓取操作,即从文本数据中筛选出包括多义词的分类文本。例如,处理设备从一段文本段落中,查询出包括多义词的语句。
为了更直观地对本发明实施例进行描述,在本发明实施例中,设定本发明实施例的方法用于消除语句的歧义,即在包括多义词的语句中确定出该多义词在该语句中的含义。从而,在本发明实施例中,分类文本包括多义词。
分类文本为自然语言语句,且分类文本包括多义词后,因多义词包括多个含义,从而机器处理该分类文本时因该多义词的存在,导致对该分类文本的理解产生歧义,而本发明实施例的方法可确定出在分类文本的语句中该多义词的确切含义,从而消除该分类文本的歧义,此即为实体消歧。
实体消歧是自然语言处理(英文全称:Natural Language Processing,英文简称:NLP)领域中的一个典型问题,即给定一段文本,可以是一句话或一篇文章,以及一个多义词,判断在该文本的语境下,这个多义词的具体含义。
步骤402:对分类文本进行分词,得到分词结果。
获取到分类文本后,为了对该分类文本使用数据处理的方式进行分析,要对该分类文本进行分词。
步骤402可参考步骤302。
步骤403:根据分词结果构建目标特征向量。
处理设备可根据该分词结果构建目标特征向量,该目标特征向量即为该分析文本的数据量化表示方式。其中,在本发明实施例中,该处理设备预先建立有SVM分类器,该SVM分类器包括建立该SVM分类器时建立的词语集合,该词语集合由训练样本分词后得到,该词语集合即图3所示的实施例中步骤303的词语集合。
步骤403可参考步骤303。
步骤404:使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签。
其中,SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同,对此可参考上述图3所示的实施例。
本发明实施例的方法为用于消除语句的歧义,即确定语句中的多义词在该语句中的含义。从而,本发明实施例的分类文本包括多义词,而该SVM分类器中的不同标签用于表示多义词的不同的含义,而得出的目标标签表示该多义词在该分类文本中的含义。
其中,具体的使用预先建立的SVM分类器对目标特征向量进行分析的方法中,利用了SVM分类算法的原理。例如,在SVM分类器根据两类特征向量和标签的对应关系建立,而特征向量由文本信息构建得到时,该SVM分类器可对分类文本进行分析,确定出该分类文本属于哪一类,其中不同类可用不同标签表示。
例如,如图5所示,处理设备获取到分类文本后,根据该分类文本建立目标特征向量后,将该目标特征向量映射到高维向量空间,然后使用SVM分类器,判断该分类文本对应的数据在分类面501的哪一侧,若在三角形的点的一侧,则确定该侧的三角形的点对应的标签,即将该分类文本分到三角形的点对应的类别,否则将该分类文本分到圆形点对应的类别。其中三角形点和圆形点分别表示不同类的训练数据。具体确定分类文本对应的数据在分类面501的哪一侧的方法可以通过计算分类面的正负性来判断。
处理设备通过SVM分类器得到目标标签,可以是SVM分类器直接输出该目标标签,从而用户即可知道该分类文本对应的标签是什么。在本发明的实施例中,该标签是分析文本中的多义词在该分析文本中的含义。或者在得到目标标签后,本发明实施例执行下述步骤。
步骤405:将目标标签赋予分类文本。
处理设备在SVM分类器输出表示多义词含义的目标标签后,将该目标标签赋予步骤401的分类文本,即建立分类文本和标签的对应关系,因该分类文本包括多义词,而SVM分类器输出的目标标签是该多义词在该分类文本中的含义,从而该分类文本因多义词产生的歧义因目标标签得到了消除。处理设备建立该目标标签和分类文本的对应关系后,使得本发明实施例的方法可以同时处理一组分类文本的歧义消除,而不产生数据混乱。
通过图3和图4所示实施例的方法,可使用SVM分类器实现对分类文本进行打标签,对分类文本进行分类操作。在该分类文本为自然语言且包括多义词时,使用SVM分类器可实现自动实体消除歧义的目的,且本发明实施例的方法具有易于扩展,减轻人工维护情感词典的成本的效果。
综上所述,获取分类文本后,对分类文本进行分词,得到分词结果;然后,根据分词结果构建目标特征向量。从而,使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签,其中SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同。因该SVM分类器的建立用到了文本信息,从而可对分类文本进行分类,分类的结果即得到目标标签,即SVM分类器输出目标标签用于对该分类文本进行标识,从而分类文本通过该目标标签得到了唯一标识,在该SVM用于对文本中的多义词进行含义确定时,即该目标标签表示多义词的预设含义时,该分类文本因包含该多义词产生的歧义,在SVM分类器输出该目标标签后,分类文本的多义词的含义得到了确定,从而分类文本的歧义得到了消除。
图6为本发明实施例提供的一种文本处理装置的结构示意图。参考上述内容,参阅图6,本发明实施例的装置包括:
第一获取单元601,用于获取分类文本,
第一分词单元602,用于对分类文本进行分词,得到分词结果;
第一构建单元603,用于根据分词结果构建目标特征向量;
分析单元604,用于使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签,其中SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同。
可选地,
该装置还包括:
赋予单元605,用于将目标标签赋予分类文本。
可选地,
分类文本包括多义词,SVM分类器的不同标签用于表示多义词的不同的含义,目标标签表示多义词在分类文本中的含义。
可选地,
第一获取单元601,还用于从文本数据中筛选出包括多义词的分类文本。
综上所述,第一获取单元601获取分类文本后,第一分词单元602对分类文本进行分词,得到分词结果;然后,第一构建单元603根据分词结果构建目标特征向量。从而,分析单元604使用预先建立的SVM分类器对目标特征向量进行分析,得到目标标签,其中SVM分类器根据至少两类特征向量和标签的对应关系建立,特征向量由文本信息构建得到,不同类的对应关系的标签不同。因该SVM分类器的建立用到了文本信息,从而可对分类文本进行分类,分类的结果即得到目标标签,即SVM分类器输出目标标签用于对该分类文本进行标识,从而分类文本通过该目标标签得到了唯一标识,在该SVM用于对文本中的多义词进行含义确定时,即该目标标签表示多义词的预设含义时,该分类文本因包含该多义词产生的歧义,在SVM分类器输出该目标标签后,分类文本的多义词的含义得到了确定,从而分类文本的歧义得到了消除。
图7为本发明实施例提供的一种文本处理装置的结构示意图。
图6所示的文本处理装置还可以包括图7所示的文本处理装置,当然,在有的实施例中,图7的文本处理装置可以独立设置。参考上述内容,参阅图7,本发明实施例的装置包括:
第二获取单元701,用于获取至少两类训练数据,其中训练数据包括文本信息和标签,不同类的训练数据的标签不同;
第二分词单元702,用于对本文信息进行分词,得到分词结果;
第二构建单元703,用于根据分词结果构建特征向量;
建立单元704,用于建立特征向量和标签的对应关系,其中,在对应关系中,特征向量所属的文本信息与标签属于同一个训练数据;
分类器建立单元705,用于根据至少两类对应关系建立SVM分类器,其中至少两类对应关系来源于至少两类训练数据。
可选地,
在训练数据中,文本信息包括多义词,标签为多义词在文本信息中的含义。
综上所述,第二获取单元701获取至少两类训练数据,其中训练数据包括文本信息和标签,不同类的训练数据的标签不同;然后,第二分词单元702对本文信息进行分词,得到分词结果;第二构建单元703根据分词结果构建特征向量;建立单元704再建立特征向量和标签的对应关系,其中,在对应关系中,特征向量所属的文本信息与标签属于同一个训练数据;从而分类器建立单元705可根据至少两类对应关系建立SVM分类器,其中至少两类对应关系来源于至少两类训练数据。这样,在对训练数据进行向量化处理后,使用其进行SVM模型训练得到SVM分类器,因该用于训练的向量由文本信息得到,该SVM分类器即具有了对文本进行分类的功能,并为待分类的文本输出标签,以用该标签表示分类结果。在该待分类文本是因包含多次词而产生歧义的文本,该标签对应于该多义词的含义时,经过本发明实施例的方法,该SVM分类器可为该歧义的待分类文本确定一标签,以确定待分类文本的该多义词的含义,消除待分类文本的歧义。
图8为本发明实施例提供的一种文本处理系统的结构示意图。参考上述内容,参阅图8,本发明实施例的系统800包括:
第一文本处理装置801和第二文本处理装置802,
其中,
第一文本处理装置801如上述图6所示的实施例示出的文本处理装置,详见上述各示例性实施例,此处不再赘述。
第二文本处理装置802如上述图7所示的实施例示出的文本处理装置,详见上述各示例性实施例,此处不再赘述。
这样,在对训练数据进行向量化处理后,使用其进行SVM模型训练得到SVM分类器,因该用于训练的向量由文本信息得到,该SVM分类器即具有了对文本进行分类的功能,从而可对分类文本进行分类,分类的结果即得到目标标签,即SVM分类器输出目标标签用于对该分类文本进行标识,从而分类文本通过该目标标签得到了唯一标识,在该SVM用于对文本中的多义词进行含义确定时,即该目标标签表示多义词的预设含义时,该分类文本因包含该多义词产生的歧义,在SVM分类器输出该目标标签后,分类文本的多义词的含义得到了确定,从而分类文本的歧义得到了消除。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取分类文本;
对所述分类文本进行分词,得到分词结果;
根据所述分词结果构建目标特征向量;
使用预先建立的SVM分类器对所述目标特征向量进行分析,得到目标标签,其中所述SVM分类器根据至少两类特征向量和标签的对应关系建立,所述特征向量由文本信息构建得到,不同类的所述对应关系的标签不同。
2.根据权利要求1所述的方法,其特征在于,
所述使用预先建立的SVM分类器对所述目标特征向量进行分析,得到目标标签之后,所述方法还包括:
将所述目标标签赋予所述分类文本。
3.根据权利要求1所述的方法,其特征在于,
所述分类文本包括多义词,所述SVM分类器的不同标签用于表示所述多义词的不同的含义,所述目标标签表示所述多义词在所述分类文本中的含义。
4.根据权利要求1所述的方法,其特征在于,
所述获取分类文本,包括:
从文本数据中筛选出包括所述多义词的分类文本。
5.根据权利要求1所述的方法,其特征在于,
所述获取分类文本之前,所述方法还包括:
获取至少两类训练数据,其中所述训练数据包括文本信息和标签,不同类的训练数据的标签不同;
对所述本文信息进行分词,得到分词结果;
根据所述分词结果构建特征向量;
建立所述特征向量和所述标签的对应关系,其中,在所述对应关系中,所述特征向量所属的文本信息与所述标签属于同一个训练数据;
根据至少两类对应关系建立SVM分类器,其中所述至少两类对应关系来源于所述至少两类训练数据。
6.根据权利要求5所述的方法,其特征在于,
在所述训练数据中,所述文本信息包括多义词,所述标签为所述多义词在所述文本信息中的含义。
7.一种文本处理装置,其特征在于,包括:
第一获取单元,用于获取分类文本,
第一分词单元,用于对所述分类文本进行分词,得到分词结果;
第一构建单元,用于根据所述分词结果构建目标特征向量;
分析单元,用于使用预先建立的SVM分类器对所述目标特征向量进行分析,得到目标标签,其中所述SVM分类器根据至少两类特征向量和标签的对应关系建立,所述特征向量由文本信息构建得到,不同类的对应关系的标签不同。
8.根据权利要求7所述的装置,其特征在于,
所述分类文本包括多义词,所述SVM分类器的不同标签用于表示所述多义词的不同的含义,所述目标标签表示所述多义词在所述分类文本中的含义。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取至少两类训练数据,其中所述训练数据包括文本信息和标签,不同类的训练数据的标签不同;
第二分词单元,用于对所述本文信息进行分词,得到分词结果;
第二构建单元,用于根据所述分词结果构建特征向量;
建立单元,用于建立所述特征向量和所述标签的对应关系,其中,在所述对应关系中,所述特征向量所属的文本信息与所述标签属于同一个训练数据;
分类器建立单元,用于根据至少两类对应关系建立SVM分类器,其中所述至少两类对应关系来源于所述至少两类训练数据。
10.根据权利要求9所述的装置,其特征在于,
在所述训练数据中,所述文本信息包括多义词,所述标签为所述多义词在所述文本信息中的含义。
CN201611104313.7A 2016-12-05 2016-12-05 文本处理方法和装置 Pending CN108153726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611104313.7A CN108153726A (zh) 2016-12-05 2016-12-05 文本处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611104313.7A CN108153726A (zh) 2016-12-05 2016-12-05 文本处理方法和装置

Publications (1)

Publication Number Publication Date
CN108153726A true CN108153726A (zh) 2018-06-12

Family

ID=62469919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611104313.7A Pending CN108153726A (zh) 2016-12-05 2016-12-05 文本处理方法和装置

Country Status (1)

Country Link
CN (1) CN108153726A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN109670326A (zh) * 2018-12-24 2019-04-23 北京天融信网络安全技术有限公司 一种数据分类方法及系统
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390091A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 语言处理设备、语言处理方法、以及语言处理程序
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
US20160292149A1 (en) * 2014-08-02 2016-10-06 Google Inc. Word sense disambiguation using hypernyms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390091A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 语言处理设备、语言处理方法、以及语言处理程序
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
US20160292149A1 (en) * 2014-08-02 2016-10-06 Google Inc. Word sense disambiguation using hypernyms

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王耀峰: "词义消歧及其在跨语言信息检索中的应用研究", 《万方数据知识服务平台》 *
金澎: "词义消歧和词义消歧评测简介", 《术语标准化与信息技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN109670326A (zh) * 2018-12-24 2019-04-23 北京天融信网络安全技术有限公司 一种数据分类方法及系统
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
CN110633366B (zh) * 2019-07-31 2022-12-16 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN103902570B (zh) 一种文本分类特征提取方法、分类方法及装置
CN108520030B (zh) 文本分类方法、文本分类系统及计算机装置
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN109271521A (zh) 一种文本分类方法及装置
CN108108355A (zh) 基于深度学习的文本情感分析方法和系统
CN108153726A (zh) 文本处理方法和装置
CN109933686B (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN109948160B (zh) 短文本分类方法及装置
Bader-El-Den et al. Garf: towards self-optimised random forests
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN106445908A (zh) 文本识别方法和装置
CN110097096A (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN102411592B (zh) 一种文本分类方法和装置
CN113590764A (zh) 训练样本构建方法、装置、电子设备和存储介质
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN108090040A (zh) 一种文本信息分类方法及系统
CN108681532A (zh) 一种面向中文微博的情感分析方法
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
CN103345525B (zh) 文本分类方法、装置及处理器
CN108287819A (zh) 一种实现财经新闻自动关联到股票的方法
US8645290B2 (en) Apparatus and method for improved classifier training
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612

RJ01 Rejection of invention patent application after publication