CN106777250A - 一种分词结果选择方法和装置 - Google Patents

一种分词结果选择方法和装置 Download PDF

Info

Publication number
CN106777250A
CN106777250A CN201611228812.7A CN201611228812A CN106777250A CN 106777250 A CN106777250 A CN 106777250A CN 201611228812 A CN201611228812 A CN 201611228812A CN 106777250 A CN106777250 A CN 106777250A
Authority
CN
China
Prior art keywords
test
segmentation sequence
sequence
segmentation
score value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611228812.7A
Other languages
English (en)
Other versions
CN106777250B (zh
Inventor
陈亚堂
姬晨
张淑燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou interactive information network Co., Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201611228812.7A priority Critical patent/CN106777250B/zh
Publication of CN106777250A publication Critical patent/CN106777250A/zh
Application granted granted Critical
Publication of CN106777250B publication Critical patent/CN106777250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种分词结果选择方法和装置,该方法包括:获取测试数据,所述测试数据包括:至少一个分词序列;通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。本发明实施例通过选择分词结果中的最优分词序列建立搜索引擎的索引,提高了搜索结果的准确率。

Description

一种分词结果选择方法和装置
技术领域
本发明涉及网络领域的分词技术,尤其涉及一种分词结果选择方法和装置。
背景技术
在搜索引擎中,需要使用分词器分词以便建立索引,使用传统的分词器会出现分词不准确的情况,尤其是对一些歧义语句分词,更难以准确分词;从而造成根据分词建立的索引不准确,在用户搜索时出现的搜索结果与用户相要的结果不相关,因此,搜索结果的准确率较低。
发明内容
为解决上述技术问题,本发明实施例提供一种分词结果选择方法和装置,通过选择分词结果中的最优分词序列建立搜索引擎的索引,提高了搜索结果的准确率。
本发明的技术方案是这样实现的:
本发明实施例提供一种分词结果选择装置,所述装置包括:获取单元、测试单元、确定单元、输出单元,其中,
所述获取单元,用于获取测试数据,所述测试数据包括:至少一个分词序列;
所述测试单元,用于通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
所述确定单元,用于确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
所述输出单元,用于将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
可选的,所述装置还包括:处理单元,
所述获取单元,用于获取训练数据集和验证数据集;
所述处理单元,用于通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
可选的,所述处理单元,用于通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
可选的,所述获取单元,用于获取分词器对预设语句分词处理获得的至少一个分词序列。
可选的,所述处理单元,用于构建循环神经网络,建立循环神经网络测试工具。
本发明实施例还提供一种分词结果选择方法,所述方法包括:
获取测试数据,所述测试数据包括:至少一个分词序列;
通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
可选的,在所述获取测试数据之前,包括:
获取训练数据集和验证数据集;
通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
可选的,所述通过预设方法、所述训练数据集和所述验证数据集,构建测试模型,包括:
通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
可选的,所述获取测试数据,包括:
获取分词器对预设语句分词处理获得的至少一个分词序列。
可选的,在所述获取训练数据集和验证数据集之前,包括:
构建循环神经网络,建立循环神经网络测试工具。
本发明实施例提供了一种分词结果选择方法和装置,获取测试数据,所述测试数据包括:至少一个分词序列;通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。本发明实施例提供的分词结果选择方法和装置,通过足够量的训练数据进行训练后,获得测试模型,通过该测试模型选择分词结果最优分词序列,通过该最优分词序列建立搜索引擎的索引,从而提高搜索引擎建立索引的准确度,通过该搜索引擎可以对传统机器分词不能正确分词的歧义语句,能够得到没有歧义的分词结果,提高用户搜索的结果的准确率。
附图说明
图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信系统示意图;
图3为本发明实施例提供的分词结果选择方法流程示意图一;
图4为本发明实施例提供的分词结果选择方法流程示意图二;
图5为本发明实施例提供的终端搜索界面显示示例图;
图6为本发明实施例提供的分词结果示例图;
图7为本发明实施例提供的分词结果选择方法示例图;
图8为本发明实施例提供的分词结果选择装置结构示意图一;
图9为本发明实施例提供的分词结果选择装置结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意。
移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。
广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H),前向链路媒体(MediaFLO@)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。
移动通信模块112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。
位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术,作为GPS的位置信息模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,作为GPS的位置信息模块115能够通过实时地连续计算当前位置信息来计算速度信息。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括照相121和麦克风122,照相121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经照相121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多照相121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。
接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外,具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152等等。
显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。
存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储已经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,已经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干已知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz、5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的作为GPS的位置信息模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
基于上述移动终端硬件结构以及通信系统,提出本发明方法各个实施例。
本发明实施例提供一种分词结果选择方法,如图3所示,该方法可以包括:
步骤301、获取测试数据,所述测试数据包括:至少一个分词序列。
本发明实施例中,获取测试数据可以是由分词结果选择装置来实现的,即分词结果选择装置获取测试数据,在实际应用中,该分词结果选择装置具体可以为服务器。
具体的,测试数据可以为通过分词器对语句进行分词处理获得的全切分序列,对语句进行分词可以得到多个分词结果。这里,语句可以为一个句子,例如,这是一个杯子。
其中,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词器,是将用户输入的一段文本,或者一个句子切分成一个一个单独的词的一种工具。分词器可以通过分词算法对语句进行分词。分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
字符匹配方法,又叫机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。
理解法分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
统计法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
步骤302、通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值。
其中,每一个分词序列对应一个测试分值。
具体的,测试模型的获得可以为:分词结果选择装置通过循环神经网络测试工具对获取的训练数据集进行训练,并通过获取的验证数据集进行验证,构建的测试模型,通过该构建的测试模型可以对分词器进行分词获得的分词序列进行打分,获得测试分值。
步骤303、确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列。
具体的,分词结果选择装置对分词器分词后的每一个分词序列进行打分,根据分值可以获知最优的分词结果,即测试分值中的最大分值的分词序列为最优分词结果,即最优分词序列。
步骤304、将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
其中,搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。用户可以通过搜索引擎进行搜索,获得搜索词相关信息,例如,图5所示,用户在手机上的搜索引擎对“分词”进行搜索,可以获得与“分词”相关信息。
示例性的,搜索引擎可以为:百度搜索、搜狗搜索等,还可以为终端安装的应用中的搜索,应用商店中的搜索、UC浏览器的搜索等。
本发明实施例提供的分词结果选择方法,通过足够量的训练数据进行训练后,获得测试模型,通过该测试模型选择分词结果最优分词序列,通过该最优分词序列建立搜索引擎的索引,从而提高搜索引擎建立索引的准确度,通过该搜索引擎可以对传统机器分词不能正确分词的歧义语句,能够得到没有歧义的分词结果,提高用户搜索的结果的准确率。
本发明实施例还提供一种分词结果选择方法,如图4所示,该方法可以包括:
步骤401、分词结果选择装置构建循环神经网络,建立循环神经网络测试工具。
其中,循环神经网络(Recurrent Neural Networks,RNNs)的目的使用来处理序列数据。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,RNNs能够对任何长度的序列数据进行处理。
具体的,分词结果选择装置基于循环神经网络方法构建测试工具,通过该测试工具和训练数据集训练测试模型。
步骤402、分词结果选择装置获取训练数据集和验证数据集,通过循环神经网络测试工具、所述训练数据集和所述验证数据集,构建测试模型。
具体的,分词结果选择装置获取训练数据集和验证数据集,通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
其中,训练数据集可以为整片文章、一段文章等,训练数据集中文章的数目越多,训练获得测试模型测试的结果准确度越高,验证数据集可以为整片文章、一段文章等,验证数据集中包括至少一个与训练数据集中不同的文章,验证数据集包括的文章与训练数据集中的文章不同的越多,达到验证的效果越好。
步骤403、分词结果选择装置获取分词器对预设语句分词处理获得的至少一个分词序列。
具体的,预设语句为用户在分词器中输入的语句,该语句可以为一个句子,通过现有的分词器对用户输入的语句进行分词处理,获得对该语句的分词序列。
示例性的,如图6所示,对语句“南京市长江大桥”进行分词获得的全切分序列可以包括:南京市长江大桥;南京市长江大桥;南京市长江大桥;南京市长江大桥;南京市长江大桥……。
步骤404、分词结果选择装置通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值。
其中,每一个分词序列对应一个测试分值。
这里,测试模型的获得可以为:分词结果选择装置通过循环神经网络测试工具对获取的训练数据集进行训练,并通过获取的验证数据集进行验证,构建的测试模型,通过该构建的测试模型可以对分词器进行分词获得的分词序列进行打分,获得测试分值。
步骤405、分词结果选择装置确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列。
具体的,分词结果选择装置对分词器分词后的每一个分词序列进行打分,根据分值可以获知最优的分词结果,即测试分值中的最大分值的分词序列为最优分词结果,即最优分词序列。
步骤406、分词结果选择装置将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
示例性的,如图7所示,通过传统机器分词器分词后得到的全切分序列,使用基于循环神经网络训练出的模型进行测试,得出每个切分序列的分值,分值最高者即为最优的切分结果,从而输出准确的分词,用于搜索引擎的索引建立;具体的,首先构建循环神经网络,建立循环神经网络测试工具;然后,选用中文训练数据集和验证集,设置循环神经网络隐藏层参数,对上述建立的循环神经网络进行训练和验证,得到训练模型,即测试模型;根据传统机器分词的结果得到全切分序列作为测试数据,通过上述训练好的模型进行测试,并输出每个序列的所得分值作为结果,如图7中所示,分词序列“南京市长江大桥”对应的分值为17.796075,“南京市长江大桥”对应的分值为12.496750,“南京市长江大桥”对应的分值为9.620112……,然后,对比输出结果,选出分值最高的分词序列作为最优分词结果,即分词序列“南京市长江大桥”为最优分词结果,并将该分词结果作为最终分词结果,提供给搜索引擎,建立索引。
本发明实施例提供的分词结果选择方法,通过足够量的训练数据进行训练后,获得测试模型,通过该测试模型选择分词结果最优分词序列,通过该最优分词序列建立搜索引擎的索引,从而提高搜索引擎建立索引的准确度,通过该搜索引擎可以对传统机器分词不能正确分词的歧义语句,能够得到没有歧义的分词结果,提高用户搜索的结果的准确率。
本发明实施例提供一种分词结果选择装置50,如图8所示,所述装置50包括:获取单元501、测试单元502、确定单元503、输出单元504,其中,
所述获取单元501,用于获取测试数据,所述测试数据包括:至少一个分词序列;
所述测试单元502,用于通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
所述确定单元503,用于确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
所述输出单元504,用于将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
可选的,如图9所示,所述装置还包括:处理单元505,
所述获取单元501,用于获取训练数据集和验证数据集;
所述处理单元505,用于通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
可选的,所述处理单元505,用于通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
可选的,所述获取单元501,用于获取分词器对预设语句分词处理获得的至少一个分词序列。
可选的,所述处理单元505,用于构建循环神经网络,建立循环神经网络测试工具。
具体的,本发明实施例提供的分词结果选择装置的理解可以参考上述分词结果选择方法实施例的说明,本发明实施例在此不再赘述。
在实际应用中,获取单元501、测试单元502、确定单元503、输出单元504及处理单元505均可由位于分词结果选择装置中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本发明实施例提供的分词结果选择装置,通过足够量的训练数据进行训练后,获得测试模型,通过该测试模型选择分词结果最优分词序列,通过该最优分词序列建立搜索引擎的索引,从而提高搜索引擎建立索引的准确度,通过该搜索引擎可以对传统机器分词不能正确分词的歧义语句,能够得到没有歧义的分词结果,提高用户搜索的结果的准确率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种分词结果选择装置,其特征在于,所述装置包括:获取单元、测试单元、确定单元、输出单元,其中,
所述获取单元,用于获取测试数据,所述测试数据包括:至少一个分词序列;
所述测试单元,用于通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
所述确定单元,用于确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
所述输出单元,用于将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
2.根据权利要求1所述的装置,其特征在于,所述装置还包括:处理单元,
所述获取单元,用于获取训练数据集和验证数据集;
所述处理单元,用于通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
3.根据权利要求2所述的装置,其特征在于,所述处理单元,用于通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
4.根据权利要求1所述的装置,其特征在于,所述获取单元,用于获取分词器对预设语句分词处理获得的至少一个分词序列。
5.根据权利要求3所述的装置,其特征在于,所述处理单元,用于构建循环神经网络,建立循环神经网络测试工具。
6.一种分词结果选择方法,其特征在于,所述方法包括:
获取测试数据,所述测试数据包括:至少一个分词序列;
通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
7.根据权利要求6所述的方法,其特征在于,在所述获取测试数据之前,包括:
获取训练数据集和验证数据集;
通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
8.根据权利要求7所述的方法,其特征在于,所述通过预设方法、所述训练数据集和所述验证数据集,构建测试模型,包括:
通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
9.根据权利要求6所述的方法,其特征在于,所述获取测试数据,包括:
获取分词器对预设语句分词处理获得的至少一个分词序列。
10.根据权利要求8所述的方法,其特征在于,在所述获取训练数据集和验证数据集之前,包括:
构建循环神经网络,建立循环神经网络测试工具。
CN201611228812.7A 2016-12-27 2016-12-27 一种分词结果选择方法和装置 Active CN106777250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611228812.7A CN106777250B (zh) 2016-12-27 2016-12-27 一种分词结果选择方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611228812.7A CN106777250B (zh) 2016-12-27 2016-12-27 一种分词结果选择方法和装置

Publications (2)

Publication Number Publication Date
CN106777250A true CN106777250A (zh) 2017-05-31
CN106777250B CN106777250B (zh) 2020-06-02

Family

ID=58921810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611228812.7A Active CN106777250B (zh) 2016-12-27 2016-12-27 一种分词结果选择方法和装置

Country Status (1)

Country Link
CN (1) CN106777250B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416785A (zh) * 2020-11-27 2021-02-26 广州品唯软件有限公司 切词工具版本差异测试方法、装置、设备和存储介质
CN112988753A (zh) * 2021-03-31 2021-06-18 建信金融科技有限责任公司 一种数据搜索方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN104462051A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 分词方法及装置
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN104462051A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 分词方法及装置
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAN LI: "Text sentiment analysis based on long short-term memory", 《IEEE INTERNATIONAL CONFERENCE ON COMPUTER》 *
杜一民等: "一种解决英语动名词搭配错误的模型", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416785A (zh) * 2020-11-27 2021-02-26 广州品唯软件有限公司 切词工具版本差异测试方法、装置、设备和存储介质
CN112988753A (zh) * 2021-03-31 2021-06-18 建信金融科技有限责任公司 一种数据搜索方法和装置
CN112988753B (zh) * 2021-03-31 2022-10-11 中国建设银行股份有限公司 一种数据搜索方法和装置

Also Published As

Publication number Publication date
CN106777250B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN106156310A (zh) 一种图片处理装置和方法
CN107066497A (zh) 一种搜索方法和装置
CN106888158A (zh) 一种即时通信方法和装置
CN106356065A (zh) 一种移动终端及语音转换方法
CN106911806A (zh) 一种推送消息的方法、终端、服务器及系统
CN106776299A (zh) 搜索引擎测试装置及方法
CN107018331A (zh) 一种基于双摄像头的成像方法及移动终端
CN106682964A (zh) 一种确定应用标签的方法和装置
CN107132931A (zh) 一种搜索方法及服务器
CN106506778A (zh) 一种拨号装置及方法
CN106778887A (zh) 基于条件随机场确定句子标记序列的终端及方法
CN106506868A (zh) 一种音乐推荐方法及终端
CN106776906A (zh) 一种应用聚类方法及装置
CN106024013A (zh) 语音数据搜索方法及系统
CN106101376A (zh) 一种消息推送装置、方法及移动终端
CN106371682A (zh) 一种基于接近传感器的手势识别系统及其方法
CN106376004A (zh) 一种信息处理方法及终端
CN105183830B (zh) 图片浏览方法及装置
CN106777250A (zh) 一种分词结果选择方法和装置
CN106777248A (zh) 一种搜索引擎测试评价方法和装置
CN106898005A (zh) 一种实现交互式图像分割的方法、装置及终端
CN106488035A (zh) 一种移动终端和控制方法
CN106332028A (zh) 一种识别欺诈短信的方法及装置
CN105955474A (zh) 应用评价的提示方法及移动终端
CN106855946A (zh) 一种图像信息获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200508

Address after: 510300 room 312, floor 3-6, No. 13,15, Jiangong Road, Zhongshan Avenue, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou interactive information network Co., Ltd

Address before: 518000 Guangdong Province, Shenzhen high tech Zone of Nanshan District City, No. 9018 North Central Avenue's innovation building A, 6-8 layer, 10-11 layer, B layer, C District 6-10 District 6 floor

Applicant before: NUBIA TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant