CN106782516A - 语料分类方法及装置 - Google Patents

语料分类方法及装置 Download PDF

Info

Publication number
CN106782516A
CN106782516A CN201611027175.7A CN201611027175A CN106782516A CN 106782516 A CN106782516 A CN 106782516A CN 201611027175 A CN201611027175 A CN 201611027175A CN 106782516 A CN106782516 A CN 106782516A
Authority
CN
China
Prior art keywords
data
language material
vector
vector data
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611027175.7A
Other languages
English (en)
Other versions
CN106782516B (zh
Inventor
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201611027175.7A priority Critical patent/CN106782516B/zh
Publication of CN106782516A publication Critical patent/CN106782516A/zh
Application granted granted Critical
Publication of CN106782516B publication Critical patent/CN106782516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是关于一种语料分类方法及装置,其中,方法包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext)算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。通过该技术方案,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。

Description

语料分类方法及装置
技术领域
本发明涉及语音分类技术领域,尤其涉及一种语料分类方法及装置。
背景技术
目前,如果需要对语料库中的语料进行分类,需要人工进行标注,这样,在语料库中的语料较多时,用户操作时间则会很久,用户体验不佳。
发明内容
本发明实施例提供一种语料分类方法及装置,用以实现在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
根据本发明实施例的第一方面,提供一种语料分类方法,包括:
从语料数据库中提取出包含性别特证词的第一语料;
将所述第一语料进行性别分类;
根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
利用标记后的所述第二语料和libshortext(支持向量机短分类)算法进行训练,得到性别分类模型;
使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
在一个实施例中,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:
根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
根据PLDA(并行隐含狄利克雷分布)算法将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。
在一个实施例中,所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。
在一个实施例中,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:
根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
在一个实施例中,所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
根据本发明实施例的第二方面,提供一种语料分类装置,包括:
提取模块,用于从语料数据库中提取出包含性别特证词的第一语料;
第一分类模块,用于将所述第一语料进行性别分类;
标记模块,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
训练模块,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
第二分类模块,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
在一个实施例中,所述训练模块包括:
第一转化子模块,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
第二转化子模块,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
第三转化子模块,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
第一拼接子模块,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
第一训练子模块,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
在一个实施例中,所述第一拼接子模块用于:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
在一个实施例中,所述第二分类模块包括:
第四转化子模块,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
第五转化子模块,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
第六转化子模块,用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
第二拼接子模块,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
第二分类子模块,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
在一个实施例中,所述第二拼接子模块用于:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语料分类方法的流程图。
图2是根据一示例性实施例示出的另一种语料分类方法的流程图。
图3是根据一示例性实施例示出的又一种语料分类方法的流程图。
图4是根据一示例性实施例示出的一种语料分类方法中步骤S105的流程图。
图5是根据一示例性实施例示出的又一种语料分类方法中步骤S105的流程图。
图6是根据一示例性实施例示出的一种语料分类装置的框图。
图7是根据一示例性实施例示出的一种语料分类装置中训练模块的框图。
图8是根据一示例性实施例示出的一种语料分类装置中第二分类模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语料分类方法的流程图。该语料分类方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音识别功能的设备。如图1所示,该方法包括步骤S101-S105:
在步骤S101中,从语料数据库中提取出包含性别特证词的第一语料;
在步骤S102中,将第一语料进行性别分类;
首先,基于特征词抽取,或者说基于规则抽取,如老公、老婆、男朋友等这类词可以明确表示回答者的性别。筛选出包含上述词的语料,并按照性别对语料分类。
在步骤S103中,根据接收到的分类标记命令,对语料数据库中的第二语料进行性别分类标记,其中,第二语料不同于第一语料;
在对第一语料进行分类后,可以人为的对语料数据库中剩余语料中的部分语料,即第二语料进行标记。
在步骤S104中,利用标记后的第二语料和libshortext算法进行训练,得到性别分类模型;
在步骤S105中,使用性别分类模型对语料数据库中除第一语料和第二语料之外的第三预料进行性别分类,以得到语料数据库对应的性别分类结果。
使用训练得到的性别分类模型对语料数据库中的剩余语料进行分类,这样,就可以完成对整个语料数据库中的语料进行分类。
在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
图2是根据一示例性实施例示出的另一种语料分类方法的流程图。
在一个实施例中,上述步骤S104包括步骤S201-S205:
在步骤S201中,根据文本向量化算法将第二语料中的每个语料数据进行向量转化,得到第一向量数据;
文本向量化算法可以采用二元统计模型算法和词频-逆文档频率算法。
在步骤S202中,根据预设性别特征词将第二语料中的每个语料数据进行向量转化,得到第二向量数据;
在该实施例中,可以建立性别特征词词典,词典里面设置多个预设性别特征词。
在步骤S203中,根据PLDA算法模型将第二语料中的每个语料数据进行向量转化,得到第三向量数据;
通过PLDA算法,将第二语料表示为第三向量数据,并保存该算法的模型。
在步骤S204中,将第一向量数据、第二向量数据和第三向量数据进行拼接,得到第四向量数据;
在步骤S205中,将第四向量数据作为libshortext算法的输入向量,使用libshortext算法进行训练,得到性别分类模型。
在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。
图3是根据一示例性实施例示出的又一种语料分类方法的流程图。
如图3所示,在一个实施例中,上述步骤S204包括步骤S301:
在步骤S301中,分别将第一向量数据、第二向量数据和第三向量数据中同一语料数据对应的向量数据进行拼接,得到第四向量数据。
在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。
图4是根据一示例性实施例示出的一种语料分类方法中步骤S105的流程图。
如图4所示,在一个实施例中,上述步骤S105包括步骤S401-S405:
在步骤S401中,根据文本向量化算法将第三语料中的每个语料数据进行向量转化,得到第五向量数据;
在步骤S402中,根据预设性别特征词将第三语料中的每个语料数据进行向量转化,得到第六向量数据;
在步骤S403中,根据PLDA算法模型将第三语料中的每个语料数据进行向量转化,得到第七向量数据;
在步骤S404中,将第五向量数据、第六向量数据和第七向量数据进行拼接,得到第八向量数据;
在步骤S405中,利用性别分类模型对第八向量数据进行分类,以得到语料数据库对应的性别分类结果。
在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
图5是根据一示例性实施例示出的又一种语料分类方法中步骤S105的流程图。
如图5所示,在一个实施例中,上述步骤S404包括步骤S501:
在步骤S501中,分别将第五向量数据、第六向量数据和第七向量数据中同一语料数据对应的向量数据进行拼接,得到第八向量数据。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图6是根据一示例性实施例示出的一种语料分类装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示,该语料分类装置包括:
提取模块61,用于从语料数据库中提取出包含性别特证词的第一语料;
第一分类模块62,用于将所述第一语料进行性别分类;
标记模块63,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
训练模块64,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
第二分类模块65,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
使用训练得到的性别分类模型对语料数据库中的剩余语料进行分类,这样,就可以完成对整个语料数据库中的语料进行分类。
在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
图7是根据一示例性实施例示出的一种语料分类装置中训练模块的框图。
如图7所示,在一个实施例中,上述语料分类装置中训练模块64包括:
第一转化子模块71,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
第二转化子模块72,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
第三转化子模块73,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
第一拼接子模块74,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
第一训练子模块75,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。
在一个实施例中,所述第一拼接子模块74用于:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。
图8是根据一示例性实施例示出的一种语料分类装置中第二分类模块的框图。
如图8所示,在一个实施例中,所述第二分类模块65包括:
第四转化子模块81,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
第五转化子模块82,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
第六转化子模块83,用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
第二拼接子模块84,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
第二分类子模块85,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
在一个实施例中,所述第二拼接子模块84用于:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语料分类方法,其特征在于,包括:
从语料数据库中提取出包含性别特证词的第一语料;
将所述第一语料进行性别分类;
根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
2.根据权利要求1所述的方法,其特征在于,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:
根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
4.根据权利要求2所述的方法,其特征在于,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:
根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
5.根据权利要求4所述的方法,其特征在于,所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
6.一种语料分类装置,其特征在于,包括:
提取模块,用于从语料数据库中提取出包含性别特证词的第一语料;
第一分类模块,用于将所述第一语料进行性别分类;
标记模块,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
训练模块,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
第二分类模块,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
7.根据权利要求6所述的装置,其特征在于,所述训练模块包括:
第一转化子模块,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
第二转化子模块,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
第三转化子模块,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
第一拼接子模块,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
第一训练子模块,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
8.根据权利要求7所述的装置,其特征在于,所述第一拼接子模块用于:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
9.根据权利要求7所述的装置,其特征在于,所述第二分类模块包括:
第四转化子模块,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
第五转化子模块,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
第六转化子模块,用于根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
第二拼接子模块,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
第二分类子模块,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
10.根据权利要求9所述的装置,其特征在于,所述第二拼接子模块用于:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
CN201611027175.7A 2016-11-17 2016-11-17 语料分类方法及装置 Active CN106782516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611027175.7A CN106782516B (zh) 2016-11-17 2016-11-17 语料分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611027175.7A CN106782516B (zh) 2016-11-17 2016-11-17 语料分类方法及装置

Publications (2)

Publication Number Publication Date
CN106782516A true CN106782516A (zh) 2017-05-31
CN106782516B CN106782516B (zh) 2020-02-07

Family

ID=58970155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611027175.7A Active CN106782516B (zh) 2016-11-17 2016-11-17 语料分类方法及装置

Country Status (1)

Country Link
CN (1) CN106782516B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704869A (zh) * 2017-09-01 2018-02-16 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法
CN109192200A (zh) * 2018-05-25 2019-01-11 华侨大学 一种语音识别方法
CN110019827A (zh) * 2017-08-24 2019-07-16 腾讯科技(北京)有限公司 一种语料库生成方法、装置、设备和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘勘等: "基于自动编码器的短文本特征提取及聚类研究", 《北京大学学报》 *
张玉蕾等: "Gender Classification for Web Forums", 《IEEE TRANSCATIONS ON SYSTEMS,MAN,AND CYBERNETICS-PART A:SYSTEMS AND HUMANS》 *
李源昊等: "面向移动社会网络的用户年龄与性别特征识别", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019827A (zh) * 2017-08-24 2019-07-16 腾讯科技(北京)有限公司 一种语料库生成方法、装置、设备和计算机存储介质
CN107704869A (zh) * 2017-09-01 2018-02-16 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法
CN107704869B (zh) * 2017-09-01 2020-09-18 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法
CN109192200A (zh) * 2018-05-25 2019-01-11 华侨大学 一种语音识别方法
CN109192200B (zh) * 2018-05-25 2023-06-13 华侨大学 一种语音识别方法

Also Published As

Publication number Publication date
CN106782516B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
US11288444B2 (en) Optimization techniques for artificial intelligence
CN110442722B (zh) 分类模型训练的方法及装置、数据分类的方法及装置
CN106575379B (zh) 用于神经网络的改进的定点整型实现方式
JP2021089705A (ja) 翻訳品質を評価するための方法と装置
CN111428010B (zh) 人机智能问答的方法和装置
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
US20220253599A1 (en) Answer classifier and representation generator for question-answering system, and computer program for training the representation generator
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN107506350A (zh) 一种识别信息的方法和设备
CN108846378A (zh) 手语识别处理方法及装置
CN107437417A (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN106782516A (zh) 语料分类方法及装置
CN106649696A (zh) 信息分类方法及装置
WO2021218027A1 (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN108519998A (zh) 基于知识图谱的问题引导方法及装置
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN108090099A (zh) 一种文本处理方法及装置
CN111344717A (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN110222331A (zh) 谎言识别方法及装置、存储介质、计算机设备
CN108090040B (zh) 一种文本信息分类方法及系统
CN110188798B (zh) 一种对象分类方法及模型训练方法和装置
CN109271513A (zh) 一种文本分类方法、计算机可读储存介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, 5 floor, A503

Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address