CN112925903B - 文本分类的方法、装置、电子设备及介质 - Google Patents
文本分类的方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN112925903B CN112925903B CN201911239837.0A CN201911239837A CN112925903B CN 112925903 B CN112925903 B CN 112925903B CN 201911239837 A CN201911239837 A CN 201911239837A CN 112925903 B CN112925903 B CN 112925903B
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- keyword
- index
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000036961 partial effect Effects 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类的方法、装置、电子设备及介质。其中,本申请中,在获取至少一个待分类文本之后,可以进一步的获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,并确定各待分类文本对应的类别标签,再基于各待分类文本对应的类别标签,为各待分类文本进行分类。通过应用本申请的技术方案,可以根据各个文本数据中包含的特定类别的关键词数量以及其反映特定类型的信息量大小的两个维度来确定各个文本数据的类别。进而可以避免相关技术中存在的对文本分类结果不够准确的问题。
Description
技术领域
本申请中涉及数据处理技术,尤其是一种文本分类的方法、装置、电子设备及介质。
背景技术
随着互联网技术的发展,文本数据数量迅猛增长。其中,文本分类是对海量数据文本进行处理的重要依据。其中,文本分类是指按照预先定义的类别,为待处理文本集合中的每个文本确定各自所属类别。
进一步的,文本分类的应用十分广泛。例如包括:垃圾信息过滤,新闻分类,词性标注等。例如针对地理信息文本分类来说,相关技术中通常针对不同文本的内容进行分类,目前通常都是仅仅依据标注关键字进行分类。这样的分类方法会忽略文本中的篇章信息,进而会使得对文本的划分不全面、不细致,从而导致分类准确度低的问题。
发明内容
本申请实施例提供一种文本分类的方法、装置、电子设备及介质。
其中,根据本申请实施例的一个方面,提供的一种文本分类的方法,其特征在于,包括:
获取至少一个待分类文本;
获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;
基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
在本申请的一种实施方式中,所述获取所述至少一个待分类文本中,各待分类文本的关键词指数,包括:
获取所述待分类文本中的各个目标关键词;
将所述各个目标关键词与预设的字段数据库进行匹配,所述字段数据库为包含地理信息类词条的字段数据库;
基于所述各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取所述各待分类文本的关键词指数。
在本申请的一种实施方式中,在所述将所述各个目标关键词与预设的字段数据库进行匹配之后,还包括:
当检测到各所述目标关键词与预设的字段数据库中地理信息类词条的匹配率超过第一阈值时,确定所述待分类文本的关键词指数符合第一条件。
在本申请的一种实施方式中,在所述确定所述待分类文本的关键词指数符合第一条件之后,还包括:
分别获取各所述待分类文本的部分文本,所述部分文本为所述待分类文本中,任意长度大小的文本部分;
检测所述待分类文本的所述部分文本中,包含地理信息类词条的目标数量;
当检测到所述目标数量小于第二阈值时,确定所述待分类文本的信息熵指数符合第二条件。
在本申请的一种实施方式中,在所述确定所述待分类文本的信息熵指数符合第二条件之后,还包括:
当确定所述待分类文本的关键词指数符合所述第一条件,以及所述待分类文本的信息熵指数符合所述第二条件时,确定所述待分类文本对应的类别标签为地理信息类型的类别标签。
根据本申请实施例的另一个方面,提供的一种文本分类的装置,包括:
获取模块,被设置为获取至少一个待分类文本;
确定模块,被设置为获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;
分类模块,被设置为基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述文本分类的方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述文本分类的方法的操作。
本申请中,在获取至少一个待分类文本之后,可以进一步的获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,并确定各待分类文本对应的类别标签,再基于各待分类文本对应的类别标签,为各待分类文本进行分类。通过应用本申请的技术方案,可以根据各个文本数据中包含的特定类别的关键词数量以及其反映特定类型的信息量大小的两个维度来确定各个文本数据的类别。进而可以避免相关技术中存在的对文本分类结果不够准确的问题。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种文本分类的方法的示意图;
图2为本申请文本分类的装置的结构示意图;
图3为本申请显示电子设备结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1来描述根据本申请示例性实施方式的用于进行文本分类的方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种文本分类的方法、装置、目标终端及介质。
图1示意性地示出了根据本申请实施方式的一种文本分类的方法的流程示意图。如图1所示,该方法,包括:
S101,获取至少一个待分类文本。
需要说明的是,本申请中不对获取待分类文本的设备做具体限定,例如可以为智能设备,也可以为服务器。其中,智能设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudioLayer III,动态影像专家压缩标准音频层面3)文本分类的器。MP4(Moving PictureExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)文本分类的器、又或便携计算机等具有显示功能的可移动式终端设备等等。
需要说明的是,本申请不对待分类文本做具体限定,例如待分类文本可以为包含各类信息的文本数据。例如可以为财经类文本数据、小说类文本数据、教育类文本数据、房产类文本数据、体育类文本数据、地理信息类文本数据等等。
另外,本申请不对待分类文本的数量做具体限定,例如可以为1个,也可以为多个等等。
S102,获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定各待分类文本对应的类别标签。
其中,本申请中获取待分类文本中,各待分类文本的关键词指数以及可以依据主题词提取技术进行实现。进一步的,主题词提取是进行文本分类的基础,切词词典的好坏,成为能否准确高效的提取主题词的关键所在。目前主题词提取大都采用已有的一些知识源以及各类成熟的切词系统,来满足切词的需求,它们可以准确地识别通用的词汇,但很难对不同主题的专业性文档进行切分。目前对网络信息进行分类、检索、过滤等处理的主流技术仍是传统的关键词技术,此种技术只考虑了从语形上匹配关键词,缺乏对语义的理解,可能会返回大量与需求无关的结果。
进一步的,本申请中的关键词指数可以为POI指数,其中,POI即为(兴趣点Pointof Interest),在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI(兴趣点)是有分类的,有一级类和二级类,每个分类都有相应的行业的代码和名称对应,方便信息采集的记录和区分。
更进一步的,本申请可以预先设定对应的POI指数,并根据各待分类文本中包含的各个词语是否与对应的POI指数相匹配来确定各待分类文本对应的关键词指数。例如,以POI指数为行政区为例,本申请可以检测各待分类文本中包含的各个词语中,出现的可以与行政区相匹配的关键词数量。并根据该关键词数量,生成对应的关键词指数。
另外,本申请可以在得到各待分类文本的关键词指数之后,在利用各待分类文本的信息熵指数来确定各待分类文本对应的类别标签。进一步的信息熵指数是对分类文本中包含的信息的度量。
进一步的,本申请中的信息熵指数可以为各待分类文本对应的信息熵。信息熵的定义公式可以为如下,其中,0log(0)=0:
H(X)=-∑x∈χp(x)logp(x)
H(X)=-x∈χ∑p(x)logp(x)。
具体来说,本申请可以在基于关键词指数,初步确定待分类文本符合地理信息分类的条件之后,还可以随机清除待分类文本中的任意一段数据内容,并从剩下的数据内容中继续根据POI指数进行匹配。如果剩下的数据内容中,可以与地理信息词条相匹配的关键词仍然较多时,则认为该待分类文本中不是以地理信息为主的文本,则可以理解的,将其信息熵指数对应较低。如果剩下的数据内容中,可以与地理信息词条相匹配的关键词数量锐减时,则认为该待分类文本中是以地理信息为主的文本,则可以理解的,将其信息熵指数对应较高,也就是说,该文本所属类型为地理信息的可能性也较高。
其中需要说明的是,本申请不对清除的数据内容做具体限定,也即该清除的数据内容可以为待分类文本中任意部分的数据内容,且也可以为待分类文本中任意大小的数据内容。
S103,基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
进一步的,本申请在确定各个待分类文本对应的类别标签后,即可以根据该类别标签,为各待分类文本进行分类。可以理解的,当待分类文本对应的类别标签为地理信息类型的标签时,则可以将该待分类文本分类至地理信息类的文本中,当待分类文本对应的类别标签为财经类型的标签时,则可以将该待分类文本分类至财经信息类的文本中。
本申请中,在获取至少一个待分类文本之后,可以进一步的获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,并确定各待分类文本对应的类别标签,再基于各待分类文本对应的类别标签,为各待分类文本进行分类。通过应用本申请的技术方案,可以根据各个文本数据中包含的特定类别的关键词数量以及其反映特定类型的信息量大小的两个维度来确定各个文本数据的类别。进而可以避免相关技术中存在的对文本分类结果不够准确的问题。
可选的,在本申请一种可能的实施方式中,在本申请S102(获取至少一个待分类文本中,各待分类文本的关键词指数)中,可以实施下述步骤:
获取待分类文本中的各个目标关键词;
将各个目标关键词与预设的字段数据库进行匹配,字段数据库为包含地理信息类词条的字段数据库;
基于各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取各待分类文本的关键词指数。
进一步的,本申请可以预先设定好对应的字段数据库,其中,该字段数据库为包含地理信息类词条的字段数据库。例如,字段数据库可以为包含地理名称类词条的字段数据库,也可以为包含地理走势类词条的字段数据库,还可以为包含地理景观类词条的字段数据库等等。
再进一步的,本申请可以将各待分类文本中的各个目标关键词与数据库中的地理类型的词条进行匹配。以确定各个待分类文本中可以与地理类型词条相匹配的目标关键词数量。可以理解的,以使后续基于各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取各待分类文本的关键词指数。
其中,本申请在将各个目标关键词与预设的字段数据库进行匹配之后,还可以实施下述步骤:
当检测到各目标关键词与预设的字段数据库中地理信息类词条的匹配率超过第一阈值时,确定待分类文本的关键词指数符合第一条件。
进一步的,本申请在检测到待分类文本中,各目标关键词与预设的字段数据库中地理信息类词条的匹配率超过第一阈值时,即可确定该待分类文本的关键词指数符合第一条件。也就是说,该待分类文本初步符合地理类别的文本要求。
需要说明的是,本申请不对第一阈值做具体限定,例如可以为30%,也可以为50%等等。
可选的,在本申请一种可能的实施方式中,在确定待分类文本的关键词指数符合第一条件之后,还可以实施下述步骤:
分别获取各待分类文本的部分文本,部分文本为待分类文本中,任意长度大小的文本部分;
检测待分类文本的部分文本中,包含地理信息类词条的目标数量;
当检测到目标数量小于第二阈值时,确定待分类文本的信息熵指数符合第二条件。
进一步的,本申请确定待分类文本的关键词指数符合第一条件之后,可以首先对各个待分类文本进行部分内容的清除,进而获取各待分类文本的部分文本。需要说明的是,本申请不对清除的数据内容做具体限定,也即该清除的数据内容可以为待分类文本中任意部分的数据内容,且也可以为待分类文本中任意大小的数据内容。例如,本申请可以将各待分类文本的前半部分进行清除,进而得到各待分类文本的后半部分的部分文本。本申请也可以将各待分类文本的中间部分进行清除,进而得到各待分类文本的前后部分的部分文本。
再进一步的,本申请在清除待分类文本的部分数据内容,以得到待分类文本的部分文本后,即可再次检测该部分文本中,包含地理信息类词条的目标数量,并在当检测到目标数量小于第二阈值时,确定待分类文本的信息熵指数符合第二条件。可以理解的,该部分文本与地理信息词条相匹配的关键词较小时,则其对应的信息熵指数较高,因此可以认为该待分类文本中是以地理信息为主的文本。
同样需要说明的是,本申请不对第二阈值做具体限定,例如可以为10个,也可以为50个等等。
可选的,本申请在确定待分类文本的信息熵指数符合第二条件之后,还可以实施下述步骤:
当确定待分类文本的关键词指数符合第一条件,以及待分类文本的信息熵指数符合第二条件时,确定待分类文本对应的类别标签为地理信息类型的类别标签。
本申请中,在获取至少一个待分类文本之后,可以进一步的获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,并确定各待分类文本对应的类别标签,再基于各待分类文本对应的类别标签,为各待分类文本进行分类。通过应用本申请的技术方案,可以根据各个文本数据中包含的特定类别的关键词数量以及其反映特定类型的信息量大小的两个维度来确定各个文本数据的类别。进而可以避免相关技术中存在的对文本分类结果不够准确的问题。
在本申请的另外一种实施方式中,如图2所示,本申请还提供一种文本分类的装置。其中,该装置包括获取模块201,确定模块202,分类模块203,其中:
获取模块201,被设置为获取至少一个待分类文本;
确定模块202,被设置为获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;
分类模块203,被设置为基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
本申请中,在获取至少一个待分类文本之后,可以进一步的获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,并确定各待分类文本对应的类别标签,再基于各待分类文本对应的类别标签,为各待分类文本进行分类。通过应用本申请的技术方案,可以根据各个文本数据中包含的特定类别的关键词数量以及其反映特定类型的信息量大小的两个维度来确定各个文本数据的类别。进而可以避免相关技术中存在的对文本分类结果不够准确的问题。
在本申请的另一种实施方式中,获取模块201,还包括:
获取模块201,被配置为获取所述待分类文本中的各个目标关键词;
获取模块201,被配置为将所述各个目标关键词与预设的字段数据库进行匹配,所述字段数据库为包含地理信息类词条的字段数据库;
获取模块201,被配置为基于所述各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取所述各待分类文本的关键词指数。
在本申请的另一种实施方式中,获取模块201,还包括:
获取模块201,被配置为当检测到各所述目标关键词与预设的字段数据库中地理信息类词条的匹配率超过第一阈值时,确定所述待分类文本的关键词指数符合第一条件。
在本申请的另一种实施方式中,还包括,获取模块201,其中:
获取模块201,被配置为分别获取各所述待分类文本的部分文本,所述部分文本为所述待分类文本中,任意长度大小的文本部分;
获取模块201,被配置为检测所述待分类文本的所述部分文本中,包含地理信息类词条的目标数量;
获取模块201,被配置为当检测到所述目标数量小于第二阈值时,确定所述待分类文本的信息熵指数符合第二条件。
在本申请的另一种实施方式中,获取模块201,还包括:
获取模块201,被配置为当确定所述待分类文本的关键词指数符合所述第一条件,以及所述待分类文本的信息熵指数符合所述第二条件时,确定所述待分类文本对应的类别标签为地理信息类型的类别标签。
图3是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,电子设备300可以包括以下一个或多个组件:处理器301和存储器302。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的互动特效标定方法。
在一些实施例中,电子设备300还可选包括有:外围设备接口303和至少一个外围设备。处理器301、存储器302和外围设备接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口303相连。具体地,外围设备包括:射频电路304、触摸显示屏305、摄像头306、音频电路307、定位组件308和电源309中的至少一种。
外围设备接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和外围设备接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和外围设备接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,设置电子设备300的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备300的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备300的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件306用于采集图像或视频。可选地,摄像头组件306包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器301进行处理,或者输入至射频电路304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器301或射频电路304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路307还可以包括耳机插孔。
定位组件308用于定位电子设备300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件308可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源309用于为电子设备300中的各个组件进行供电。电源309可以是交流电、直流电、一次性电池或可充电电池。当电源309包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备300还包括有一个或多个传感器310。该一个或多个传感器310包括但不限于:加速度传感器311、陀螺仪传感器312、压力传感器313、指纹传感器314、光学传感器315以及接近传感器316。
加速度传感器311可以检测以电子设备300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器311可以用于检测重力加速度在三个坐标轴上的分量。处理器301可以根据加速度传感器311采集的重力加速度信号,控制触摸显示屏305以横向视图或纵向视图进行用户界面的显示。加速度传感器311还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器312可以检测电子设备300的机体方向及转动角度,陀螺仪传感器312可以与加速度传感器311协同采集用户对电子设备300的3D动作。处理器301根据陀螺仪传感器312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器313可以设置在电子设备300的侧边框和/或触摸显示屏305的下层。当压力传感器313设置在电子设备300的侧边框时,可以检测用户对电子设备300的握持信号,由处理器301根据压力传感器313采集的握持信号进行左右手识别或快捷操作。当压力传感器313设置在触摸显示屏305的下层时,由处理器301根据用户对触摸显示屏305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器314用于采集用户的指纹,由处理器301根据指纹传感器314采集到的指纹识别用户的身份,或者,由指纹传感器314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器301授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、文本分类的及更改设置等。指纹传感器314可以被设置电子设备300的正面、背面或侧面。当电子设备300上设置有物理按键或厂商Logo时,指纹传感器314可以与物理按键或厂商Logo集成在一起。
光学传感器315用于采集环境光强度。在一个实施例中,处理器301可以根据光学传感器315采集的环境光强度,控制触摸显示屏305的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏305的显示亮度;当环境光强度较低时,调低触摸显示屏305的显示亮度。在另一个实施例中,处理器301还可以根据光学传感器315采集的环境光强度,动态调整摄像头组件306的拍摄参数。
接近传感器316,也称距离传感器,通常设置在电子设备300的前面板。接近传感器316用于采集用户与电子设备300的正面之间的距离。在一个实施例中,当接近传感器316检测到用户与电子设备300的正面之间的距离逐渐变小时,由处理器301控制触摸显示屏305从亮屏状态切换为息屏状态;当接近传感器316检测到用户与电子设备300的正面之间的距离逐渐变大时,由处理器301控制触摸显示屏305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图3中示出的结构并不构成对电子设备300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由电子设备300的处理器320执行以完成上述文本分类的方法,该方法包括:获取至少一个待分类文本;获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。可选地,上述指令还可以由电子设备300的处理器320执行以完成上述示例性实施例中所涉及的其他步骤。可选地,上述指令还可以由电子设备300的处理器320执行以完成上述示例性实施例中所涉及的其他步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备300的处理器320执行,以完成上述文本分类的方法,该方法包括:获取至少一个待分类文本;获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。可选地,上述指令还可以由电子设备300的处理器320执行以完成上述示例性实施例中所涉及的其他步骤。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (7)
1.一种文本分类的方法,其特征在于,包括:
获取至少一个待分类文本;
获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;所述信息熵指数为各待分类文本中包含的信息的度量;
基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类;
所述获取所述至少一个待分类文本中,各待分类文本的关键词指数,包括:
获取所述待分类文本中的各个目标关键词;
将所述各个目标关键词与预设的字段数据库进行匹配,所述字段数据库为包含地理信息类词条的字段数据库;
基于所述各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取所述各待分类文本的关键词指数。
2.如权利要求1所述的方法,其特征在于,在所述将所述各个目标关键词与预设的字段数据库进行匹配之后,还包括:
当检测到各所述目标关键词与预设的字段数据库中地理信息类词条的匹配率超过第一阈值时,确定所述待分类文本的关键词指数符合第一条件。
3.如权利要求2所述的方法,其特征在于,在所述确定所述待分类文本的关键词指数符合第一条件之后,还包括:
分别获取各所述待分类文本的部分文本,所述部分文本为所述待分类文本中,任意长度大小的文本部分;
检测所述待分类文本的所述部分文本中,包含地理信息类词条的目标数量;
当检测到所述目标数量小于第二阈值时,确定所述待分类文本的信息熵指数符合第二条件。
4.如权利要求3所述的方法,其特征在于,在所述确定所述待分类文本的信息熵指数符合第二条件之后,还包括:
当确定所述待分类文本的关键词指数符合所述第一条件,以及所述待分类文本的信息熵指数符合所述第二条件时,确定所述待分类文本对应的类别标签为地理信息类型的类别标签。
5.一种文本分类的装置,其特征在于,包括:
获取模块,被设置为获取至少一个待分类文本;
确定模块,被设置为获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;所述信息熵指数为各待分类文本中包含的信息的度量;
分类模块,被设置为基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类;
所述获取模块,被配置为获取所述待分类文本中的各个目标关键词;将所述各个目标关键词与预设的字段数据库进行匹配,所述字段数据库为包含地理信息类词条的字段数据库;基于所述各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取所述各待分类文本的关键词指数。
6.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-4中任一所述文本分类的方法的操作。
7.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-4中任一所述文本分类的方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239837.0A CN112925903B (zh) | 2019-12-06 | 2019-12-06 | 文本分类的方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239837.0A CN112925903B (zh) | 2019-12-06 | 2019-12-06 | 文本分类的方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112925903A CN112925903A (zh) | 2021-06-08 |
CN112925903B true CN112925903B (zh) | 2024-03-29 |
Family
ID=76161452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911239837.0A Active CN112925903B (zh) | 2019-12-06 | 2019-12-06 | 文本分类的方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925903B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317891A (zh) * | 2014-10-23 | 2015-01-28 | 华为软件技术有限公司 | 一种对页面标注标签的方法及装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN105512104A (zh) * | 2015-12-02 | 2016-04-20 | 上海智臻智能网络科技股份有限公司 | 词典降维方法及装置、信息分类方法及装置 |
CN108287850A (zh) * | 2017-01-10 | 2018-07-17 | 阿里巴巴集团控股有限公司 | 文本分类模型的优化方法及装置 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108875067A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 文本数据分类方法、装置、设备及存储介质 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109460499A (zh) * | 2018-10-16 | 2019-03-12 | 青岛聚看云科技有限公司 | 目标搜索词生成方法及装置、电子设备、存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
-
2019
- 2019-12-06 CN CN201911239837.0A patent/CN112925903B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317891A (zh) * | 2014-10-23 | 2015-01-28 | 华为软件技术有限公司 | 一种对页面标注标签的方法及装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN105512104A (zh) * | 2015-12-02 | 2016-04-20 | 上海智臻智能网络科技股份有限公司 | 词典降维方法及装置、信息分类方法及装置 |
CN108287850A (zh) * | 2017-01-10 | 2018-07-17 | 阿里巴巴集团控股有限公司 | 文本分类模型的优化方法及装置 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN108875067A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 文本数据分类方法、装置、设备及存储介质 |
CN109460499A (zh) * | 2018-10-16 | 2019-03-12 | 青岛聚看云科技有限公司 | 目标搜索词生成方法及装置、电子设备、存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于信息熵的规则分类算法在农业信息推荐中的应用研究;金花等;《河北农业大学学报》;第37卷(第5期);144-147 * |
Also Published As
Publication number | Publication date |
---|---|
CN112925903A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852100B (zh) | 关键词提取方法、装置、电子设备及介质 | |
CN111127509B (zh) | 目标跟踪方法、装置和计算机可读存储介质 | |
CN108320756B (zh) | 一种检测音频是否是纯音乐音频的方法和装置 | |
CN110933468A (zh) | 播放方法、装置、电子设备及介质 | |
CN110675473B (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
CN112052354A (zh) | 视频推荐方法、视频展示方法、装置及计算机设备 | |
CN110647881A (zh) | 确定图像对应的卡片类型的方法、装置、设备及存储介质 | |
CN110929159B (zh) | 资源投放方法、装置、设备及介质 | |
CN111327819A (zh) | 选择图像的方法、装置、电子设备及介质 | |
CN110853124B (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
CN112860046B (zh) | 选择运行模式的方法、装置、电子设备及介质 | |
CN111563201A (zh) | 内容推送方法、装置、服务器及存储介质 | |
CN112925922A (zh) | 获取地址的方法、装置、电子设备及介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN113408809B (zh) | 汽车的设计方案评价方法、装置及计算机存储介质 | |
CN112989198B (zh) | 推送内容的确定方法、装置、设备及计算机可读存储介质 | |
CN112214115B (zh) | 输入方式的识别方法、装置、电子设备及存储介质 | |
CN112925903B (zh) | 文本分类的方法、装置、电子设备及介质 | |
CN111125095B (zh) | 数据前缀添加的方法、装置、电子设备及介质 | |
CN112560472B (zh) | 一种识别敏感信息的方法及装置 | |
CN109816047B (zh) | 提供标签的方法、装置、设备及可读存储介质 | |
CN115221888A (zh) | 实体提及的识别方法、装置、设备及存储介质 | |
CN111984738A (zh) | 数据关联方法、装置、设备及存储介质 | |
CN113627413B (zh) | 数据标注方法、图像比对方法及装置 | |
CN111007969B (zh) | 搜索应用的方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |