发明内容
有鉴于此,本发明的主要目的在于提供一种文本信息处理方法及装置,在对文本进行分析处理时放宽了对文本的要求,提高了处理速度。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种文本信息处理装置,所述装置包括:
获取单元,用于获取待分析文本;
预处理单元,用于对所述待分析文本进行预处理;
确定单元,用于确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;
构建单元,用于根据每个词的权重信息构建所述待分析文本的词汇链。
上述方案中,优选地,所述装置还包括:分析单元,用于:
确定所述待分析文本中各个词汇链的权重;
对所述各个词汇链的权重进行排序;
对排名满足第一预设条件的词汇链进行分析;
基于分析结果统计所述待分析文本所表征的用户行为信息。
上述方案中,优选地,所述预处理单元,还用于:
判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;
过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。
上述方案中,优选地,所述确定单元,还用于:
读取所述经预处理后的待分析文本中的每个词;
分析每个词的词性,为不同词性的词赋予不同的权重系数;
根据每个词是否符合第二预设条件为其赋予附加权重系数;
基于词性对应的权重系数、以及附加权重系数计算每个词的权重;
分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;
基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。
上述方案中,优选地,所述构建单元,还用于:
预先确定至少一个词汇链的中心词;
接收当前输入的所述待分析文本中的带有权重信息的词;
按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;
其中,所述预设规则,包括:
判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;
如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;
如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。
本发明还提供了一种文本信息处理方法,所述方法包括:
获取待分析文本;
对所述待分析文本进行预处理;
确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;
根据每个词的权重信息构建所述待分析文本的词汇链。
上述方案中,优选地,所述方法还包括:
确定所述待分析文本中各个词汇链的权重;
对所述各个词汇链的权重进行排序;
对排名满足第一预设条件的词汇链进行分析;
基于分析结果统计所述待分析文本所表征的用户行为信息。
上述方案中,优选地,所述对所述待分析文本进行预处理,包括:
判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;
过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。
上述方案中,优选地,所述确定经预处理后的待分析文本中每个词的权重信息,包括:
读取所述经预处理后的待分析文本中的每个词;
分析每个词的词性,为不同词性的词赋予不同的权重系数;
根据每个词是否符合第二预设条件为其赋予附加权重系数;
基于词性对应的权重系数、以及附加权重系数计算每个词的权重;
分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;
基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。
上述方案中,优选地,所述根据每个词的权重信息构建所述待分析文本的词汇链,包括:
预先确定至少一个词汇链的中心词;
接收当前输入的所述待分析文本中的带有权重信息的词;
按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;
其中,所述预设规则,包括:
判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;
如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;
如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。
本发明所提供的实施例的技术方案中,获取待分析文本;对所述待分析文本进行预处理;确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;根据每个词的权重信息构建所述待分析文本的词汇链。通过对本发明实施例技术方案的实施,在对文本进行分析处理时放宽了对文本的要求,提高了处理速度。
具体实施方式
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明实施例的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明实施例中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA,Personal Digital Assistant)、平板电脑(PAD,Portable Android Device)、便携式多媒体播放器(PMP,Portable Media Player)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的移动终端的硬件结构示意。
移动终端100可以包括无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。
广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(DMB,Digital Multimedia Broadcasting)的电子节目指南(EPG,Electronic ProgramGuide)、数字视频广播手持(DVB-H,Digital Video Broadcasting-Handheld)的电子服务指南(ESG,Electronic Service Guide)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T,Digital MultimediaBroadcasting-Terrestrial)、数字多媒体广播-卫星(DMB-S,Digital MultimediaBroadcasting-Satellite)、数字视频广播手持(DVB-H),前向链路媒体(MediaFLO,Media Forward Link Only)的数据广播系统、地面数字广播综合服务(ISDB-T,Integrated Services Digital Broadcasting-Terrestrial)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。
移动通信模块112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括无线局域网络(Wi-Fi,WLAN,Wireless Local Area Networks)、无线宽带(Wibro)、全球微波互联接入(Wimax)、高速下行链路分组接入(HSDPA,High Speed DownlinkPacket Access)等等。
短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙、射频识别(RFID,Radio Frequency Identification)、红外数据协会(IrDA,Infrared Data Association)、超宽带(UWB,Ultra Wideband)、紫蜂等等。
位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是全球定位系统(GPS,Global Positioning System)。根据当前的技术,GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机1210。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器141。
接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM,User Identify Module)、客户识别模块(SIM,Subscriber IdentityModule)、通用客户识别模块(USIM,Universal Subscriber Identity Module)等等。另外,具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。
显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI,User Interface)或图形用户界面(GUI,Graphical User Interface)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD,Liquid Crystal Display)、薄膜晶体管LCD(TFT-LCD,Thin FilmTransistor-LCD)、有机发光二极管(OLED,Organic Light-Emitting Diode)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为透明有机发光二极管(TOLED)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。
警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外,警报单元153可以以不同的方式提供输出以通知事件的发生。例如,警报单元153可以以振动的形式提供输出,当接收到呼叫、消息或一些其它进入通信(incoming communication)时,警报单元153可以提供触觉输出(即,振动)以将其通知给用户。通过提供这样的触觉输出,即使在用户的移动电话处于用户的口袋中时,用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。
存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储已经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM,Random Access Memory)、静态随机访问存储器(SRAM,StaticRandom Access Memory)、只读存储器(ROM,Read Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read OnlyMemory)、可编程只读存储器(PROM,Programmable Read Only Memory)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC,Application Specific Integrated Circuit)、数字信号处理器(DSP,Digital Signal Processing)、数字信号处理装置(DSPD,Digital SignalProcessing Device)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,Field Programmable Gate Array)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,已经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明实施例的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA,Frequency Division MultipleAccess)、时分多址(TDMA,Time Division Multiple Access)、码分多址(CDMA,Code Division Multiple Access)和通用移动通信系统(UMTS,Universal MobileTelecommunications System)(特别地,长期演进(LTE,Long Term Evolution))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS,Base Station)270、基站控制器(BSC,Base Station Controller)275和移动交换中心(MSC,Mobile Switching Center)280。MSC280被构造为与公共电话交换网络(PSTN,Public Switched Telephone Network)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS,Base Transceiver Station)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT,Broadcast Transmitter)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
图3为本发明实施例提供的文本信息处理方法的实现流程示意图,本实施例中的文本信息处理方法可应用于服务器侧,如图3所示,该文本信息处理方法主要包括以下步骤:
步骤301:获取待分析文本。
在一实施例中,所述获取待分析文本,可以包括:
选取预设时间段的日志;
按照时间顺序将所述预设时间段的日志拼接成待分析文本。
这里,所述预设时间段可以为默认设置,或由工作人员根据实际情况进行设定。
这里,所述时间顺序可以是按照时间升序或时间降序方式。优选地,所述时间顺序为时间升序方式。
在一具体实施方式中,所述获取待分析文本,包括:
服务器主动从终端侧读取预设时间段的日志。
其中,所述服务器与所述终端能够进行通信;在终端本地设置有存储设备,或在终端侧设置有与所述终端连接的存储设备,所述的存储设备用于存储终端的日志文件。
在一具体实施方式中,所述获取待分析文本,包括:
服务器接收并存储终端侧上报的日志文件;
从所存储的日志文件中选取预设时间段的日志。
这里,需要说明的是,所述待分析文本可以是一个,也可以是多个。另外,所述待分析文本可以是由一个用户的终端的日志组成的文本,也可以是由多个用户的终端的日志组成的文本。
步骤302:对所述待分析文本进行预处理。
优选地,在一实施例中,所述对所述待分析文本进行预处理,包括:
判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;
过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。
也就是说,对于用中文表示的待分析文本,需要先进行词语切分,然后再进行词性标注;这是因为中文是一种没有明显的形态界限可以作为分词依据的表意语言,因而,在对用中文表示的待分析文本的处理中进行词语的切分是必需的。而由于用英文表示的待分析文本,是有一个一个的单词组成的,直接进行词性标注即可。
其中,所述第一类词不含有实质性的内容,对步骤304中所述的构建词汇链不起作用或者所起的作用可以忽略不计。例如,所述第一类词,包括但不限于:“have/有、is/是、let/让、say/说、go/去”等。
其中,所述第二类词含有实质性的内容,对步骤304中所述的构建词汇链起重要作用或者所起的作用不可忽略。这里,所述第二类词,包括但不限于:
名词、动词、用户名、形容词、时间。
在一具体实施方式中,对待分析文本进行预处理,可以应用知网(HowNet)作为词汇链的分析词典,提取HowNet中的W_C和DEF两项内容。对英文的日志进行词性标注(可利用Stanford Log-linear Part-Of-Speech Tagger),对中文日志进行分词(可利用中科院计算所汉语词汇分析系统)和词性标注(可利用stanford-postagger)。
其中,知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以解释概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中的概念是对词汇语义的描述。概念的定义及与之相关的各类关系均描述于记录的DEF项中。DEF被称为一个语义表达式,其中用于描述概念的最小语义单位被称为义原。
①重复或同义,如:mobile、phone。
②上下位关系,如:mobile(手机)、electronic devices(电子设备)。
③同一个祖先,如:mobile sleeve手机套、mobile headset手机专用耳机(都是mobile derivatives手机衍生产品)。
④反义词,如:buy、sale。
⑤同一个环境,如:电商、手机、买手机——都在一个环境中发生的。
HowNet对于①、③这些表达出词之间的关系能力较强,对⑤这类词之间的关联能力中等,对②这类词之间的关联能力较弱,对④反义词关联能力最弱。
举例来说,员工与雇员均是人,那么,在一条日志中,不仅出现了员工,还出现了雇佣者,那么,DEF(员工)=DEF(雇佣者)=人。
步骤303:确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重。
优选地,在一实施例中,所述确定经预处理后的待分析文本中每个词的权重信息,包括:
读取所述经预处理后的待分析文本中的每个词;
分析每个词的词性,为不同词性的词赋予不同的权重系数;
根据每个词是否符合第二预设条件为其赋予附加权重系数;
基于词性对应的权重系数、以及附加权重系数计算每个词的权重;
分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;
基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。
这里,所述第二预设条件是指:指定的内容;其中,所述指定的内容能够表示分析人员关心的内容。例如,分析人员关心某款产品的情况,可以将“某款产品”赋予附加权重系数。
在一实施例中,根据每个词是否符合第二预设条件为其赋予附加权重系数,包括:
对于符合第二预设条件的词为其赋予第一类附加权重系数,此时,第一类附加权重系数大于1;
对于符不合第二预设条件的词为其第二类赋予附加权重系数,此时,第二类附加权重系数等于1。
在一实施例中,基于词性对应的权重系数、以及附加权重系数计算每个词的权重,包括:
每个词的权重=a×b;
其中,a表示词性对应的权重系数,b表示附加权重系数。
例如,对于一条日志来说,由于动词是一条日志的中心,动词获得的权重就比较大;副词在一条日志中所起的作用较小,副词获得的权重就比较小。
在一实施例中,基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重,包括:
每个词在所述待分析文本中的权重=a×b×entropy;
其中,a表示词性对应的权重系数,b表示附加权重系数,entropy表示信息熵。
其中,信息熵entropy的计算公式为:
entropy=-∑freq*log(freq):其中,freq表示某个词在待分析文本中出显得频率。
这里,可以通过记录词在日志文本的某时间段位置来分析其信息熵,如果某个词只集中出现在某一个时间段,表明这个词只能跟这段时间关系比较大,与整天的关系较小。
步骤304:根据每个词的权重信息构建所述待分析文本的词汇链。
优选地,在一实施例中,所述根据每个词的权重信息构建所述待分析文本的词汇链,包括:
预先确定至少一个词汇链的中心词;
接收当前输入的所述待分析文本中的带有权重信息的词;
按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;
其中,所述预设规则,包括:
判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;
如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;
如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。
这里,所述第三预设条件是指在词汇链中各个词的权重排名为后x%,这里,所述x可以根据实际情况进行设定;或者,所述第三预设条件是指在词汇链中各个词的权重排名为后M名;其中,M为大于或等于1的正整数。从所插入的词汇链中剔除满足第三预设条件的词,能够使得最终构建出的各个词汇链中含有较高信息量的信息。
也就是说,由最先进入词汇链的词作为该词汇链的中心词,进来一个新词要判断是否与已存在的词汇链的中心词有关联。如果有,则计算其关联度,并把新来的词加入到关联度最大的那条词汇链中。这样做的目的使得关联越密切的词越容易在一条词汇链中出现。将词汇链中的各个词排序,重新确定每一条词汇链的中心词,并将所有权重小于某一个阈值踢出词汇链中。
假设新词记为w1、已经存在的词汇链的中心词记为w2,那么,w1与w2的关联度为:n+m;其中,n表示DEF(w1)与DEF(w2)在概念解释中重复的次数;m表示w1和w2同时出现在一条日志的次数。
w1与w2的关联度分为三大类,即强关联、次关联、无关联;具体地,
强关联是指w1与w2的名称重复或DEF重复,强关联分为两种,一种是w1与w2的名称重复、DEF重复,可表示为:w1=w2,DEF(w1)=DEF(w2);另一种是w1与w2的名称不重复,但DEF重复,可表示为:w1≠w2且DEF(w1)=DEF(w2)。例如,员工≠雇佣者,DEF(员工)=DEF(雇佣者)=人。
次关联是指w1与w2的DEF不重复,但是二者的DEF的交集不为空。可表示为:DEF(w1)≠DEF(w2),且DEF(w1)∩DEF(w2)≠null,说明w1和w2存在上下义、反义、同义、同一个环境关系中的一种。例如,DEF(CPU)=部件,DEF(电脑)=设备,但是,部件和设备二者存在一定的关系。
无关联是指w1与w2既不满足强关联标准,又不满足次关联标准。当w1与w2无关联时,则重新建立一条词汇链,并将w1确定为新建的条词汇链的中心词。
在步骤304之后,所述方法还可以包括:
确定所述待分析文本中各个词汇链的权重;
对所述各个词汇链的权重进行排序;
对排名满足第一预设条件的词汇链进行分析;
基于分析结果统计所述待分析文本所表征的用户行为信息。
其中,每条词汇链的权重为该条词汇链中各个词的权重相加。
需要说明的是,所述待分析文本中各个词汇链可能包括多个同一词性的词汇链,此情况下,可以分别针对同一词性的词汇链进行排序;然后在进行统计分析时,优先选出不同词性词汇链中权重均为最大的词汇链进行分析。
例如,所述待分析文本中各个词汇链中包括3个名词词汇链、2个动词词汇链、1个副词词汇链,那么,首先,对所述2个名词词汇链按照权重大小进行排序,同时,对2个动词词汇链按照权重大小进行排序;然后,选出权重最大的名词词汇链、权重最大的动词词汇链;最后,根据权重最大的名词词汇链、权重最大的动词词汇链、1个副词词汇链所包含的信息分析用户行为信息。
如此,能够根据构建的待分析本本中的词汇链统计用户行为信息,如获取用户群在某段时间做了什么事件以及事件的分布情况,进而根据用户行为信息分析结果为用户提供更好的服务支持或技术支持等。
在本发明实施例中,获取待分析文本;对所述待分析文本进行预处理;确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;根据每个词的权重信息构建所述待分析文本的词汇链。通过对本发明实施例技术方案的实施,在对文本进行分析处理时放宽了对文本的要求,对不规范化的日志数据不需要规范化,照样可分析处理;对中文的日志也可进行分析处理;同时,相对于在进行文本处理时必须先对文本进行规范化处理才能继续进行分析的现有技术而言,还提高了处理速度。
实施例四
图6为本发明实施例提供的文本信息处理装置的组成结构示意图,如图6所示,所述文本信息处理装置包括获取单元61、预处理单元62、确定单元63、和构建单元64;其中,
获取单元61,用于获取待分析文本;
预处理单元62,用于对所述待分析文本进行预处理;
确定单元63,用于确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;
构建单元64,用于根据每个词的权重信息构建所述待分析文本的词汇链。
可选地,所述装置还包括:分析单元65,用于:
确定所述待分析文本中各个词汇链的权重;
对所述各个词汇链的权重进行排序;
对排名满足第一预设条件的词汇链进行分析;
基于分析结果统计所述待分析文本所表征的用户行为信息。
优选地,所述预处理单元62,还用于:
判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;
过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。
优选地,所述确定单元63,还用于:
读取所述经预处理后的待分析文本中的每个词;
分析每个词的词性,为不同词性的词赋予不同的权重系数;
根据每个词是否符合第二预设条件为其赋予附加权重系数;
基于词性对应的权重系数、以及附加权重系数计算每个词的权重;
分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;
基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。
优选地,所述构建单元64,还用于:
预先确定至少一个词汇链的中心词;
接收当前输入的所述待分析文本中的带有权重信息的词;
按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;
其中,所述预设规则,包括:
判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;
如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;
如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。
本领域技术人员应当理解,图6中所示的文本信息处理装置中的各处理单元的实现功能,可参照前述文本信息处理方法的相关描述而理解。本领域技术人员应当理解,图6所示的文本信息处理装置中各处理单元,可通过运行于处理器上的程序而实现,也可通过具体地逻辑电路而实现。
在实际应用中,所述的文本信息处理装置中的获取单元61、预处理单元62、确定单元63、构建单元64、分析单元65的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)或可编程门阵列(FPGA,Field-Programmable Gate Array)等具有处理功能的电子元器件或电子元器件的集合。其中,所述处理器包括可执行代码,所述可执行代码存储在存储介质中,所述处理器可以通过总线等通信接口与所述存储介质中相连,在执行具体的各模块的对应功能时,从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。
所述获取单元61、预处理单元62、确定单元63、构建单元64、分析单元65可以集成对应于同一处理器,或分别对应不同的处理器;当集成对应于同一处理器时,所述处理器采用时分处理所述获取单元61、预处理单元62、确定单元63、构建单元64、分析单元65对应的功能。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。