CN106528748B - 一种用于确定地域词库的方法与装置 - Google Patents

一种用于确定地域词库的方法与装置 Download PDF

Info

Publication number
CN106528748B
CN106528748B CN201610970594.8A CN201610970594A CN106528748B CN 106528748 B CN106528748 B CN 106528748B CN 201610970594 A CN201610970594 A CN 201610970594A CN 106528748 B CN106528748 B CN 106528748B
Authority
CN
China
Prior art keywords
information
history
regional
candidate
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610970594.8A
Other languages
English (en)
Other versions
CN106528748A (zh
Inventor
崔红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610970594.8A priority Critical patent/CN106528748B/zh
Publication of CN106528748A publication Critical patent/CN106528748A/zh
Application granted granted Critical
Publication of CN106528748B publication Critical patent/CN106528748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于确定地域词库的方法与装置。本发明获取多个用户的对应于地域信息的历史输入信息,并根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个对应于地域信息的候选地域词库以及确定与全部所述地域信息相对应的一个或多个通用词条,最后从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。与现有技术相比,本发明采用差分方式来对候选地域词库中的通用词条进行筛选,实现了地域词库的自动生成与自动更新,减少了人工收集数据的人力成本;而且,本发明改善了地域词库臃肿的缺陷,使得地域词库更加简约、准确,便于用户随时加载使用,最终提升用户的输入效率,改善了用户体验。

Description

一种用于确定地域词库的方法与装置
技术领域
本发明涉及输入法技术领域,尤其涉及一种用于确定地域词库的技术。
背景技术
在输入法领域中,当用户输入了输入字符串之后,输入法会依据不同的词库来检索与该输入字符串相对应的输入候选项;而由于语言存在地域性,因此,不同地域的人,其常用的输入候选项也有所不同。而在当前输入法的使用过程中,无论是在北京、河北、河南等全国任何地方,所提供的输入候选项都是相同的;即使输入法提供不同的地域词库,所提供的地域词库也十分臃肿,难以符合用户对系统资源占用以及精确输入的需求。
发明内容
本发明的目的是提供一种用于确定地域词库的方法与装置。
根据本发明的一个方面,提供了一种用于确定地域词库的方法,其中,该方法包括以下步骤:
a获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;
b根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;
c根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;
d从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
可选地,所述步骤a包括:
-获取多个用户的多个历史输入信息;
-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。
可选地,所述输入场景信息包括以下至少任一项:
-所述历史输入信息所对应的输入地点;
-所述历史输入信息所对应的输入时间;
-所述历史输入信息所对应的上下文信息;
-所述历史输入信息所对应的交互对象信息。
可选地,该方法还包括:
x分别确定与多个用户相对应的地域信息;
其中,所述步骤a包括:
-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。
可选地,所述步骤x包括:
-分别确定与多个用户相对应的候选地域信息;
-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。
可选地,所述步骤b包括:
-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;
-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
可选地,所述步骤c包括:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
可选地,所述步骤c包括:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
可选地,该方法还包括:
-根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。
可选地,该方法还包括:
-根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。
根据本发明的另一方面,还提供了一种用于确定地域词库的确定装置,其中,所述确定装置包括:
获取装置,用于获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;
候选确定装置,用于根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;
通用确定装置,用于根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;
筛选装置,用于从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
可选地,所述获取装置用于:
-获取多个用户的多个历史输入信息;
-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。
可选地,所述输入场景信息包括以下至少任一项:
-所述历史输入信息所对应的输入地点;
-所述历史输入信息所对应的输入时间;
-所述历史输入信息所对应的上下文信息;
-所述历史输入信息所对应的交互对象信息。
可选地,所述确定装置还包括:
地域确定装置,用于分别确定与多个用户相对应的地域信息;
其中,所述获取装置用于:
-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。
可选地,所述地域确定装置用于:
-分别确定与多个用户相对应的候选地域信息;
-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。
可选地,所述候选确定装置用于:
-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;
-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
可选地,所述通用确定装置用于:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
可选地,所述通用确定装置用于:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
可选地,所述确定装置还包括:
关联确定装置,用于根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。
可选地,所述确定装置还包括:
通用词库确定装置,用于根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。
根据本发明的又一方面,还提供了一种输入设备,包括如上述任一项所述的确定装置。
与现有技术相比,本发明获取多个用户的对应于地域信息的历史输入信息,并根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个对应于地域信息的候选地域词库以及确定与全部所述地域信息相对应的一个或多个通用词条,最后从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。从而本发明采用差分方式来对候选地域词库中的通用词条进行筛选,实现了地域词库的自动生成与自动更新,减少了人工收集数据的人力成本;而且,相比现有技术中仅基于在同一地域下输入的词条所确定的该地域的地域词库,本发明所生成的地域词库筛除了通用词条,改善了地域词库臃肿的缺陷,使得地域词库更加简约、准确,便于用户随时加载使用,最终提升用户的输入效率,改善了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于确定地域词库的确定装置示意图;
图2示出根据本发明的一个优选实施例的一种用于确定地域词库的确定装置示意图;
图3示出根据本发明另一个方面的一种用于确定地域词库的方法流程图;
图4示出根据本发明的一个优选实施例的一种用于确定地域词库的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“确定装置”即为“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。
所述计算机设备包括用户设备和/或网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本领域技术人员应能理解,本发明中所述的“确定装置”可以仅是用户设备,即由用户设备来执行相应的操作;也可以是由用户设备与网络设备或服务器相集成来组成,即由用户设备与网络设备相配合来执行相应的操作。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
需要说明的是,优选地,本发明所述的“确定装置”可包括输入法、包含在输入法中的装置等。其中,本发明所述的确定装置可由计算机设备的生产厂商或销售服务商预先安装至该计算机设备,也可由计算机设备从服务器加载到计算机设备。本领域技术人员应能理解,任何可用于实现本发明中的功能的装置,无论是否被加载至计算机设备中,均包含在本发明的保护范围内。
在此,本领域技术人员应能理解,本发明可应用于移动端与非移动端,例如,当用户使用手机或PC时,均可利用本发明所述的方法或装置来进行提供与呈现。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于确定地域词库的确定装置示意图;其中,所述确定装置包括获取装置1、候选确定装置2、通用确定装置3、筛选装置4。
具体地,所述获取装置1获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;所述候选确定装置2根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;所述通用确定装置3根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;所述筛选装置4从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
所述获取装置1获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息。
具体地,所述获取装置1通过与各个用户相交互,以获取各个用户实时或历史输入的输入信息,并将该输入信息作为所述历史输入信息;或者,所述获取装置1与其他能够提供各个用户的历史输入信息的设备相交互,以获取该设备所提供的所述用户的历史输入信息。
其中,所述历史输入信息可以直接包含所述用户的地域信息,如每个历史输入信息均预先存储有其所对应的地域信息;或者,所述历史输入信息也可以经由所述获取装置1或所述确定装置,通过对所述用户的历史输入信息进行分析,或是直接获取所述用户的位置信息等,来确定所述历史输入信息所对应的地域信息。
其中,所述地域信息包括但不限于各种分类层级,如以行政区域划分:如省、市、区县等,以商业区域划分:如中关村地区、朝阳商务中心区等。本领域技术人员应能理解,所述地域信息可以基于需求划分为多种粒度,从而可以生成多种粒度的地域词库,以供用户选择;上述分级方式仅为举例,并非对本发明的限制,其他的分级方式同样适用于本发明,并包含在本发明的保护范围里。
在此,本领域技术人员应能理解,所述历史输入信息所对应的所述用户的地域信息,可以是所述用户所对应的常用位置,如用户长期位于北京,则将该用户所输入的所有历史输入信息所对应的地域信息均对应于北京;也可以与所述用户所对应的属性相关联,例如,若该用户为上海人,则即使其位于北京,其所输入的历史输入信息所对应的地域信息也为上海;也可以是与在输入所述历史输入信息的实时位置,例如,若用户长期位于北京,则其在北京输入的历史输入信息的地域信息为北京,而其在上海输入的历史输入信息的地域信息为上海。
在实际应用中,可以基于系统设置需要或是用户设置等方式,来选择上述一种或多种对应方式,以使得所获取的地域词库更符合系统或用户的需求。若选择其中某一种或几种方式,则可仅将符合该要求的输入信息作为所获取的历史输入信息;例如,仅当用户长期位于北京时,该用户所输入的输入信息作为所获取的历史输入信息。
优选地,所述获取装置1获取多个用户的多个历史输入信息;根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。
具体地,所述获取装置1通过与各个用户相交互,以获取各个用户实时或历史输入的输入信息,并将该输入信息作为所述历史输入信息;或者,所述获取装置1与其他能够提供各个用户的历史输入信息的设备相交互,以获取该设备所提供的所述用户的历史输入信息。
然后,所述获取装置1通过对所述历史输入信息进行分析,例如提取所述历史输入信息所对应的输入时间、输入地点、输入上下文、交互对象等,以获取所述历史输入信息的输入场景信息;或者,所述获取装置1直接与提供所述历史输入信息的输入场景信息的设备相交互,以获取所述输入场景信息。然后,所述获取装置1根据所述输入场景信息,以确定与所述历史输入信息相对应的地域信息。
因此,本发明可以先获取历史输入信息,然后基于对所述历史输入信息所对应的输入场景信息的分析,来确定其所对应的地域信息。
更优选地,所述输入场景信息包括以下至少任一项:
-所述历史输入信息所对应的输入地点:其中,所述输入地点可以根据用户在输入时所对应的GPS定位、地图定位等方式进行获取,也可以对用户的历史输入信息进行提取后获取,例如,若用户的历史输入信息为“我在北京”,则可直接将“北京”作为输入地点。当所述输入场景信息为输入地点时,可以将所述输入地点作为所述地域信息;也可以对所述输入地点进行处理后,将处理后的输入地点作为所述地域信息,如将坐标转换为区县位置或街道位置,或将街道位置转换为商区名称等。
-所述历史输入信息所对应的输入时间:其中,所述输入时间可以从所述历史输入信息所对应的输入记录中提取获得。所述输入时间可以与其他一种或多种辅助信息一起来确定所述地域信息,所述辅助信息包括但不限于用户资料、用户位置信息等。例如,若该用户工作在中关村,则在工作时间所输入的历史输入信息的地域信息为“中关村”;而该用户的家在天通苑,则在休息时间所输入的历史输入信息的地域信息为天通苑。而“工作在中关村”或“家在天通苑”这类信息,可以根据用户的个人资料获得,或基于对该用户长期定位的位置信息而分析获得。
-所述历史输入信息所对应的上下文信息:其中,所述上下文信息可以是与该历史输入信息在输入位置上的上下文,如该历史输入信息的前一段和/或后一段,也可以是与该历史输入信息在输入时间上的上下文,如输入该历史输入信息前1分钟所输入的内容和/或输入该历史输入信息后一分钟所输入的内容。例如,若该用户当前所在地点为A,而上下文均是在使用地点B的用语,则该历史输入信息所对应的地域信息为地点B。
-所述历史输入信息所对应的交互对象信息:其中,所述交互对象信息包括但不限于当用户在即时通信软件、邮箱等可以与他人进行交互对话的应用中,所述历史输入信息所对应的交互对象名称、交互对象的个人资料等。所述交互对象名称可以根据所述历史输入信息的上下文进行分析获取(如根据聊天记录中,当前聊天记录所对应的前后用户获取),也可以直接根据输入时间、输入位置等内容从相应的输入应用中提取(如从邮箱中提取该用户所发送的邮件的收件人等);进一步地,还可以根据所述交互对象名称,调用该交互对象所对应的数据库,以获取所存储的该交互对象的个人资料,并基于所述个人资料对历史输入信息进行分析。例如,若用户身在北京,但是其所对话的对象为一名或多名上海人,则该历史输入信息所对对应的地域信息为上海。
所述候选确定装置2根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
具体地,所述候选确定装置2对所述历史输入信息进行处理,例如,对所述历史输入信息进行分词、统计等,从而确定与所述历史输入信息相对应的一条或多条词条;由于每个历史输入信息均对应于地域信息,因此,根据该词条所对应的历史输入信息,确定与该词条相对应的地域信息。
然后,所述候选确定装置2通过对所述词条进行统计,若某一词条在某一地域信息中出现的频率超过一定阈值,则将该词条作为该地域信息所对应的候选地域词库中的词条;若某一词条在某一地域信息中出现的频率低过一定阈值,则不再将该词条作为该地域信息所对应的候选地域词库中的词条。
本领域技术人员应能理解,所述候选地域词库中的词条是动态变化的,随着所述历史输入信息的不断变更,所述候选地域词库中的词条可以不断的增减。
其中,所述候选地域词库中的词条包括但不限于方言词条、区域常用位置、区域名人、区域特产信息等。本领域技术人员应理解,任何能够被某一地域的用户所频繁输入的词条,均可作为所述候选地域词库中的词条。
优选地,所述候选确定装置2根据所述历史输入信息、所述历史输入信息所对应的时间信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
具体地,所述候选确定装置2可以基于所述历史输入信息的时效性来确定所述候选地域词库中的词条;例如,若某个历史输入信息所对应的词条的时效性较低,则可降低该词条所对应的频率权重,反之,若某个历史输入信息所对应的词条的时效性较高,则可提高该词条所对应的频率权重,从而调整所述候选地域词库中的词条信息,使得所述候选地域词库中的词条具有时效性。其中,所述时效性可以根据所述历史输入信息所对应的时间信息来确定,例如,距离当前时间越近,其时效性越高等。
优选地,所述候选确定装置2根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
具体地,所述候选确定装置2在确定所述预定频率时,所述预定频率与所述地域信息相对应,即对于不同的地域信息而言,确定为地域词库中的词条的频率是不同的。具体地,所述预定频率可以基于所述地域信息所对应的地域的分级信息、区域大小、人口规模等进行确定。
以省级词库为例,不同省的人口比例不同,因此其所对应的方言的使用次数也并不相同,因此,若某省人口超过预定人口值,则其所对应的预定频率可以设置为2n,而若某省人口尚未超过预定人口值,则其所对应的预定频率可以设置为n。
从而,所述候选确定装置2对所述历史输入信息进行处理,例如,对所述历史输入信息进行分词、统计等,从而确定与所述历史输入信息相对应的一条或多条词条;然后统计每个词条在其所对应的地域信息中的频率;若所述词条超过在该地域信息中的预定频率,则将该词条确定为候选词条信息。
然后,根据所述地域信息所对应的一个或多个候选词条信息,生成与该地域信息相对应的候选地域词库。从而本发明基于不同的地域信息,确定不同的预定频率,提高了候选词条信息的准确性,避免了利用同一个预定频率带来的标准单一、结果不准确等问题,进一步提高了所确定的地域词库的准确性,最终提升用户的输入效率,改善了用户体验。
在此,所述候选确定装置2确定所述候选地域词库的方式与图1中所述候选确定装置2相同或相似,故不再赘述,并通过引用的方式包含于此。
所述通用确定装置3根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条。
具体地,所述通用确定装置3对所述历史输入信息进行处理,例如,对所述历史输入信息进行分词、统计等,从而确定与所述历史输入信息相对应的一条或多条词条;由于每条词条均是对应于地域信息,因此,若一个词条同时对应于多个或全部地域信息中,则将该词条作为与全部所述地域信息相对应的通用词条;或者,若一个词条在所述历史输入信息中的出现频率超过预定阈值(如若一个词条在全部历史输入信息中的出现次数超过一万次),或一个词条在某个地域词库中的频率远超过该地域词库中其他候选词条信息的频率(例如,若某地域所对应的一个词条超过100次即可进入地域词库,而该词条在该地域词库中的出现频率超过了5000次),则将该词条作为与全部所述地域信息相对应的通用词条。
在此,所述通用确定装置3可以直接对所述历史输入信息进行处理,以确定所述通用词条;也可以通过与所述候选确定装置2中所确定的候选地域词库相交互,根据对所述候选地域词库中的候选词条信息的处理,以确定所述通用词条。
本领域技术人员应能理解,所述通用词条的确定可以仅与出现次数相关,也可以与出现频率相关,即所述通用词条的确定可以辅助所述历史输入信息所对应的时间信息来确定或调整。具体地,所述通用确定装置3可以根据所述历史输入信息,结合所述历史输入信息所对应的时间信息,确定或调整与全部所述地域信息相对应的一个或多个通用词条。例如,若在某段时间内,某词条被确定为通用词条;而在后续的一段时间内,该词条仅在某地域范围内被使用的比较频繁,其他地域范围内很少使用,则将该词条从通用词条调整为相应的地域词库内的词条等。
优选地,若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则所述通用确定装置3将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
具体地,所述通用确定装置3可以直接与所述候选确定装置2中所确定的候选地域词库相交互,以统计所述候选地域词库中的重复词条;或者,所述通用确定装置3可以根据所述历史输入信息进行分词等处理,以确定一个或多个词条,然后,将所述词条到所述候选地域词库中去查询,已统计该词条在多少个候选地域词库中出现过。
若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,例如,若超过一半数目的候选词库中均有某个词条,则所述通用确定装置3将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
更优选地,若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则所述通用确定装置3将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
具体地,所述通用确定装置3可以直接与所述候选确定装置2中所确定的候选地域词库相交互,以统计所述候选地域词库中的重复词条;或者,所述通用确定装置3可以根据所述历史输入信息进行分词等处理,以确定一个或多个词条,然后,将所述词条到所述候选地域词库中去查询,已统计该词条在多少个候选地域词库中出现过。
然后,所述通用确定装置3可以获取或确定所述词条所出现过的多个候选地域词库所对应的地域信息间的关联关系,其中,所述关联关系可以反应多个所述地域信息间在地理位置、人文环境等方面的关联;然后,若所述关联关系小于一定阈值,则所述通用确定装置3才将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
例如,若东北三省之间均存在某个词条,但由于东北三省间的关联关系过强,超过预定阈值,因此该词条无法作为全国范围内的通用词条;但若东北三省与广东均包含某个词条,由于东北三省与广东之间的关联关系很小,因此该词条可以作为全国范围内的通用词条。
在此,本领域技术人员应能理解,可以根据实际需求,设置“所述词条所对应的多个地域信息间的关联关系均小于一定阈值”时,才将所述词条作为通用词条;或者设置“所述词条所对应的多个地域信息间的关联关系至少一个小于一定阈值”时,即将所述词条作为通用词条等。在此不再赘述,并包含在本发明的保护范围中。
更优选地,所述确定装置还包括关联确定装置(未示出),其中,所述关联确定装置根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。
具体地,所述关联确定装置可以通过预置的信息或是实时查询的信息,获取所述地域信息所对应的地理位置和/或人文信息;然后对两个或多个地域信息所对应的地理位置和/或人文信息进行分析,以确定所述地域信息间的关联关系。
其中,上述分析方法可以包括以下至少任一项:
-计算两个地域信息间所对应的地理位置距离;
-根据两个地域信息间所包含的人文信息所对应的描述信息,计算两个地域信息的描述信息相似度等。
然后,所述关联确定装置可以直接将所述关联关系发送至所述通用确定装置3,以供所述通用确定装置3使用;也可以根据所述通用确定装置3所发送的调用请求,根据所述调用请求所对应的多个地域信息,将相应的关联关系发送至所述通用确定装置3。
从而,本发明实现了多种通用词条的确定方式,并使得通用词条的确定符合实际需求,因而提高了所确定的通用词条的准确性,进一步提高了所确定的地域词库的准确性,最终提升用户的输入效率,改善了用户体验。
所述筛选装置4从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
具体地,所述筛选装置4从所述候选地域词库中将所述通用词条筛除,并将晒出了通用词条后的候选地域词库确定为所述地域词库。从而,所述地域词库中仅包含该地区所对应的地域词条,而不包含被所有地区或大部分地区所通用的通用词条。
优选地,所述确定装置还包括通用词库确定装置(未示出),其中,所述通用词库确定装置根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。
具体地,所述通用词库确定装置根据所述一个或多个通用词条,若尚未存在通用词库,则可根据所述通用词条生成新的通用词库,以供后续应用调用;若已经存在通用词库,则可根据所述通用词条对原有的通用词库进行更新,以供后续应用调用。从而使得本发明更具可用性,最终提升用户的输入效率,改善了用户体验。
图2示出根据本发明的一个优选实施例的一种用于确定地域词库的确定装置示意图;其中,所述确定装置包括地域确定装置5’、获取装置1’、候选确定装置2’、通用确定装置3’、筛选装置4’。
具体地,所述地域确定装置5’分别确定与多个用户相对应的地域信息;当所述用户输入一条或多条输入信息时,所述获取装置1’将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息;所述候选确定装置2’根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;所述通用确定装置3’根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;所述筛选装置4’从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
其中,所述候选确定装置2’、通用确定装置3’、筛选装置4’与图1中所述对应装置相同或相似,故在此不再赘述,并通过引用的方式包含于此。
所述地域确定装置5’分别确定与多个用户相对应的地域信息。
具体地,所述地域确定装置5’通过对用户设备进行地图定位、GPS定位、手动定位等方式,分别确定与多个用户相对应的地域信息。
其中,所述地图定位可以是将原始地图发送给所述用户,由用户进行手动选择自己所对应的区域,以确定与该用户相对应的地域信息;也可以是对该用户进行初始定位,如利用GPS进行初始定位,然后将初始定位的地图位置发送给所述用户,由用户进行二次确认后,确定所述用户所对应的地域信息。所述GPS定位即调用该用户设备的GPS信息以确定该用户的位置信息。所述手动定位即为用户通过手动输入自己所在的位置信息,以作为与所述用户相对应的地域信息。
当所述用户输入一条或多条输入信息时,所述获取装置1’将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。
具体地,当所述用户输入一条或多条输入信息时,所述获取装置1’将所确定的地域信息作为与该输入信息相对应的地域信息,并将该输入信息作为历史输入信息以供后续装置处理。从而,本发明可以先确定地域信息,再获取输入信息以作为历史输入信息。
优选地,所述地域确定装置5’分别确定与多个用户相对应的候选地域信息;当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。
具体地,所述地域确定装置5’通过对用户设备进行地图定位、GPS定位、手动定位等方式,分别确定与多个用户相对应的候选地域信息;其中,所述候选地域信息的确定方式与前述地域确定装置5’确定地域信息的方式相同或相似,故在此不再赘述,并通过引用的方式包含于此。
然后,所述地域确定装置5’周期性地确定所述用户所在的候选地域信息,或是检测所述用户所在的候选地域信息是否发生变更;若所述候选地域信息在预定时间阈值内均未发生变更,则将所述候选地域信息作为与所述用户相对应的地域信息;否则,若所述候选地域信息在预定时间阈值内均发生变更,则所述候选地域信息不被作为与所述用户相对应的地域信息。
例如,若某用户为北京人,当他去河南出差时,则即使其在河南所输入的历史输入信息,也应属于是地域信息为北京的输入信息。因此,可以仅当用户在一个地点的时间超过一定时长,才将该地点作为该用户的地域信息。
其中,所述预定时间阈值可以是连续的时间,如连续在某地超过一定时长,也可是多个离散的时间的总和,如频繁出现在某地超过一定时间/次数等。而所述预定时间阈值的时长或方式,可以根据所述候选地域信息或地域信息所对应的具体位置、分级等级等进行确定:如若所述候选地域信息为“北京市”,则当该用户在北京市超过3天时,才将“北京市”作为该用户相对应的地域信息;而若所述候选地域信息为“西单”,则当该用户在西单超过2小时,才将“西单”作为该用户相对应的地域信息。
图3示出根据本发明另一个方面的一种用于确定地域词库的方法流程图。具体地,在步骤S1中,所述确定装置获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;在步骤S2中,所述确定装置根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;在步骤S3中,所述确定装置根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;在步骤S4中,所述确定装置从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
在步骤S1中,所述确定装置获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息。
具体地,在步骤S1中,所述确定装置通过与各个用户相交互,以获取各个用户实时或历史输入的输入信息,并将该输入信息作为所述历史输入信息;或者,在步骤S1中,所述确定装置与其他能够提供各个用户的历史输入信息的设备相交互,以获取该设备所提供的所述用户的历史输入信息。
其中,所述历史输入信息可以直接包含所述用户的地域信息,如每个历史输入信息均预先存储有其所对应的地域信息;或者,所述历史输入信息也可以经由所述确定装置,通过对所述用户的历史输入信息进行分析,或是直接获取所述用户的位置信息等,来确定所述历史输入信息所对应的地域信息。
其中,所述地域信息包括但不限于各种分类层级,如以行政区域划分:如省、市、区县等,以商业区域划分:如中关村地区、朝阳商务中心区等。本领域技术人员应能理解,所述地域信息可以基于需求划分为多种粒度,从而可以生成多种粒度的地域词库,以供用户选择;上述分级方式仅为举例,并非对本发明的限制,其他的分级方式同样适用于本发明,并包含在本发明的保护范围里。
在此,本领域技术人员应能理解,所述历史输入信息所对应的所述用户的地域信息,可以是所述用户所对应的常用位置,如用户长期位于北京,则将该用户所输入的所有历史输入信息所对应的地域信息均对应于北京;也可以与所述用户所对应的属性相关联,例如,若该用户为上海人,则即使其位于北京,其所输入的历史输入信息所对应的地域信息也为上海;也可以是与在输入所述历史输入信息的实时位置,例如,若用户长期位于北京,则其在北京输入的历史输入信息的地域信息为北京,而其在上海输入的历史输入信息的地域信息为上海。
在实际应用中,可以基于系统设置需要或是用户设置等方式,来选择上述一种或多种对应方式,以使得所获取的地域词库更符合系统或用户的需求。若选择其中某一种或几种方式,则可仅将符合该要求的输入信息作为所获取的历史输入信息;例如,仅当用户长期位于北京时,该用户所输入的输入信息作为所获取的历史输入信息。
优选地,在步骤S1中,所述确定装置获取多个用户的多个历史输入信息;根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。
具体地,在步骤S1中,所述确定装置通过与各个用户相交互,以获取各个用户实时或历史输入的输入信息,并将该输入信息作为所述历史输入信息;或者,在步骤S1中,所述确定装置与其他能够提供各个用户的历史输入信息的设备相交互,以获取该设备所提供的所述用户的历史输入信息。
然后,在步骤S1中,所述确定装置通过对所述历史输入信息进行分析,例如提取所述历史输入信息所对应的输入时间、输入地点、输入上下文、交互对象等,以获取所述历史输入信息的输入场景信息;或者,在步骤S1中,所述确定装置直接与提供所述历史输入信息的输入场景信息的设备相交互,以获取所述输入场景信息。然后,在步骤S1中,所述确定装置根据所述输入场景信息,以确定与所述历史输入信息相对应的地域信息。
因此,本发明可以先获取历史输入信息,然后基于对所述历史输入信息所对应的输入场景信息的分析,来确定其所对应的地域信息。
更优选地,所述输入场景信息包括以下至少任一项:
-所述历史输入信息所对应的输入地点:其中,所述输入地点可以根据用户在输入时所对应的GPS定位、地图定位等方式进行获取,也可以对用户的历史输入信息进行提取后获取,例如,若用户的历史输入信息为“我在北京”,则可直接将“北京”作为输入地点。当所述输入场景信息为输入地点时,可以将所述输入地点作为所述地域信息;也可以对所述输入地点进行处理后,将处理后的输入地点作为所述地域信息,如将坐标转换为区县位置或街道位置,或将街道位置转换为商区名称等。
-所述历史输入信息所对应的输入时间:其中,所述输入时间可以从所述历史输入信息所对应的输入记录中提取获得。所述输入时间可以与其他一种或多种辅助信息一起来确定所述地域信息,所述辅助信息包括但不限于用户资料、用户位置信息等。例如,若该用户工作在中关村,则在工作时间所输入的历史输入信息的地域信息为“中关村”;而该用户的家在天通苑,则在休息时间所输入的历史输入信息的地域信息为天通苑。而“工作在中关村”或“家在天通苑”这类信息,可以根据用户的个人资料获得,或基于对该用户长期定位的位置信息而分析获得。
-所述历史输入信息所对应的上下文信息:其中,所述上下文信息可以是与该历史输入信息在输入位置上的上下文,如该历史输入信息的前一段和/或后一段,也可以是与该历史输入信息在输入时间上的上下文,如输入该历史输入信息前1分钟所输入的内容和/或输入该历史输入信息后一分钟所输入的内容。例如,若该用户当前所在地点为A,而上下文均是在使用地点B的用语,则该历史输入信息所对应的地域信息为地点B。
-所述历史输入信息所对应的交互对象信息:其中,所述交互对象信息包括但不限于当用户在即时通信软件、邮箱等可以与他人进行交互对话的应用中,所述历史输入信息所对应的交互对象名称、交互对象的个人资料等。所述交互对象名称可以根据所述历史输入信息的上下文进行分析获取(如根据聊天记录中,当前聊天记录所对应的前后用户获取),也可以直接根据输入时间、输入位置等内容从相应的输入应用中提取(如从邮箱中提取该用户所发送的邮件的收件人等);进一步地,还可以根据所述交互对象名称,调用该交互对象所对应的数据库,以获取所存储的该交互对象的个人资料,并基于所述个人资料对历史输入信息进行分析。例如,若用户身在北京,但是其所对话的对象为一名或多名上海人,则该历史输入信息所对对应的地域信息为上海。
在步骤S2中,所述确定装置根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
具体地,在步骤S2中,所述确定装置对所述历史输入信息进行处理,例如,对所述历史输入信息进行分词、统计等,从而确定与所述历史输入信息相对应的一条或多条词条;由于每个历史输入信息均对应于地域信息,因此,根据该词条所对应的历史输入信息,确定与该词条相对应的地域信息。
然后,在步骤S2中,所述确定装置通过对所述词条进行统计,若某一词条在某一地域信息中出现的频率超过一定阈值,则将该词条作为该地域信息所对应的候选地域词库中的词条;若某一词条在某一地域信息中出现的频率低过一定阈值,则不再将该词条作为该地域信息所对应的候选地域词库中的词条。
本领域技术人员应能理解,所述候选地域词库中的词条是动态变化的,随着所述历史输入信息的不断变更,所述候选地域词库中的词条可以不断的增减。
其中,所述候选地域词库中的词条包括但不限于方言词条、区域常用位置、区域名人、区域特产信息等。本领域技术人员应理解,任何能够被某一地域的用户所频繁输入的词条,均可作为所述候选地域词库中的词条。
优选地,在步骤S2中,所述确定装置根据所述历史输入信息、所述历史输入信息所对应的时间信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
具体地,在步骤S2中,所述确定装置可以基于所述历史输入信息的时效性来确定所述候选地域词库中的词条;例如,若某个历史输入信息所对应的词条的时效性较低,则可降低该词条所对应的频率权重,反之,若某个历史输入信息所对应的词条的时效性较高,则可提高该词条所对应的频率权重,从而调整所述候选地域词库中的词条信息,使得所述候选地域词库中的词条具有时效性。其中,所述时效性可以根据所述历史输入信息所对应的时间信息来确定,例如,距离当前时间越近,其时效性越高等。
优选地,在步骤S2中,所述确定装置根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
具体地,在步骤S2中,所述确定装置在确定所述预定频率时,所述预定频率与所述地域信息相对应,即对于不同的地域信息而言,确定为地域词库中的词条的频率是不同的。具体地,所述预定频率可以基于所述地域信息所对应的地域的分级信息、区域大小、人口规模等进行确定。
以省级词库为例,不同省的人口比例不同,因此其所对应的方言的使用次数也并不相同,因此,若某省人口超过预定人口值,则其所对应的预定频率可以设置为2n,而若某省人口尚未超过预定人口值,则其所对应的预定频率可以设置为n。
从而,在步骤S2中,所述确定装置对所述历史输入信息进行处理,例如,对所述历史输入信息进行分词、统计等,从而确定与所述历史输入信息相对应的一条或多条词条;然后统计每个词条在其所对应的地域信息中的频率;若所述词条超过在该地域信息中的预定频率,则将该词条确定为候选词条信息。
然后,根据所述地域信息所对应的一个或多个候选词条信息,生成与该地域信息相对应的候选地域词库。从而本发明基于不同的地域信息,确定不同的预定频率,提高了候选词条信息的准确性,避免了利用同一个预定频率带来的标准单一、结果不准确等问题,进一步提高了所确定的地域词库的准确性,最终提升用户的输入效率,改善了用户体验。
在此,在步骤S2中,所述确定装置确定所述候选地域词库的方式与图3中所述步骤S2相同或相似,故不再赘述,并通过引用的方式包含于此。
在步骤S3中,所述确定装置根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条。
具体地,在步骤S3中,所述确定装置对所述历史输入信息进行处理,例如,对所述历史输入信息进行分词、统计等,从而确定与所述历史输入信息相对应的一条或多条词条;由于每条词条均是对应于地域信息,因此,若一个词条同时对应于多个或全部地域信息中,则将该词条作为与全部所述地域信息相对应的通用词条;或者,若一个词条在所述历史输入信息中的出现频率超过预定阈值(如若一个词条在全部历史输入信息中的出现次数超过一万次),或一个词条在某个地域词库中的频率远超过该地域词库中其他候选词条信息的频率(例如,若某地域所对应的一个词条超过100次即可进入地域词库,而该词条在该地域词库中的出现频率超过了5000次),则将该词条作为与全部所述地域信息相对应的通用词条。
在此,在步骤S3中,所述确定装置可以直接对所述历史输入信息进行处理,以确定所述通用词条;也可以通过与所述步骤S2中所确定的候选地域词库相交互,根据对所述候选地域词库中的候选词条信息的处理,以确定所述通用词条。
本领域技术人员应能理解,所述通用词条的确定可以仅与出现次数相关,也可以与出现频率相关,即所述通用词条的确定可以辅助所述历史输入信息所对应的时间信息来确定或调整。具体地,在步骤S3中,所述确定装置可以根据所述历史输入信息,结合所述历史输入信息所对应的时间信息,确定或调整与全部所述地域信息相对应的一个或多个通用词条。例如,若在某段时间内,某词条被确定为通用词条;而在后续的一段时间内,该词条仅在某地域范围内被使用的比较频繁,其他地域范围内很少使用,则将该词条从通用词条调整为相应的地域词库内的词条等。
优选地,若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则在步骤S3中,所述确定装置将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
具体地,在步骤S3中,所述确定装置可以直接与所述步骤S2中所确定的候选地域词库相交互,以统计所述候选地域词库中的重复词条;或者,在步骤S3中,所述确定装置可以根据所述历史输入信息进行分词等处理,以确定一个或多个词条,然后,将所述词条到所述候选地域词库中去查询,已统计该词条在多少个候选地域词库中出现过。
若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,例如,若超过一半数目的候选词库中均有某个词条,则在步骤S3中,所述确定装置将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
更优选地,若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则在步骤S3中,所述确定装置将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
具体地,在步骤S3中,所述确定装置可以直接与所述步骤S2中所确定的候选地域词库相交互,以统计所述候选地域词库中的重复词条;或者,在步骤S3中,所述确定装置可以根据所述历史输入信息进行分词等处理,以确定一个或多个词条,然后,将所述词条到所述候选地域词库中去查询,已统计该词条在多少个候选地域词库中出现过。
然后,在步骤S3中,所述确定装置可以获取或确定所述词条所出现过的多个候选地域词库所对应的地域信息间的关联关系,其中,所述关联关系可以反应多个所述地域信息间在地理位置、人文环境等方面的关联;然后,若所述关联关系小于一定阈值,则所述确定装置才将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
例如,若东北三省之间均存在某个词条,但由于东北三省间的关联关系过强,超过预定阈值,因此该词条无法作为全国范围内的通用词条;但若东北三省与广东均包含某个词条,由于东北三省与广东之间的关联关系很小,因此该词条可以作为全国范围内的通用词条。
在此,本领域技术人员应能理解,可以根据实际需求,设置“所述词条所对应的多个地域信息间的关联关系均小于一定阈值”时,才将所述词条作为通用词条;或者设置“所述词条所对应的多个地域信息间的关联关系至少一个小于一定阈值”时,即将所述词条作为通用词条等。在此不再赘述,并包含在本发明的保护范围中。
更优选地,所述方法还包括步骤S6(未示出),其中,在步骤S6中,所述确定装置根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。
具体地,在步骤S6中,所述确定装置可以通过预置的信息或是实时查询的信息,获取所述地域信息所对应的地理位置和/或人文信息;然后对两个或多个地域信息所对应的地理位置和/或人文信息进行分析,以确定所述地域信息间的关联关系。
其中,上述分析方法可以包括以下至少任一项:
-计算两个地域信息间所对应的地理位置距离;
-根据两个地域信息间所包含的人文信息所对应的描述信息,计算两个地域信息的描述信息相似度等。
从而,本发明实现了多种通用词条的确定方式,并使得通用词条的确定符合实际需求,因而提高了所确定的通用词条的准确性,进一步提高了所确定的地域词库的准确性,最终提升用户的输入效率,改善了用户体验。
在步骤S4中,所述确定装置从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
具体地,在步骤S4中,所述确定装置从所述候选地域词库中将所述通用词条筛除,并将晒出了通用词条后的候选地域词库确定为所述地域词库。从而,所述地域词库中仅包含该地区所对应的地域词条,而不包含被所有地区或大部分地区所通用的通用词条。
优选地,所述方法还包括步骤S7(未示出),其中,在步骤S7中,所述确定装置根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。
具体地,在步骤S7中,所述确定装置根据所述一个或多个通用词条,若尚未存在通用词库,则可根据所述通用词条生成新的通用词库,以供后续应用调用;若已经存在通用词库,则可根据所述通用词条对原有的通用词库进行更新,以供后续应用调用。从而使得本发明更具可用性,最终提升用户的输入效率,改善了用户体验。
图4示出根据本发明的一个优选实施例的一种用于确定地域词库的方法流程图。具体地,在步骤S5'中,所述确定装置分别确定与多个用户相对应的地域信息;当所述用户输入一条或多条输入信息时,在步骤S1'中,所述确定装置将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息;在步骤S2'中,所述确定装置根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;在步骤S3'中,所述确定装置根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;在步骤S4'中,所述确定装置从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
其中,所述步骤S2’、步骤S3’、步骤S4’与图3中所述对应步骤相同或相似,故在此不再赘述,并通过引用的方式包含于此。
在步骤S5'中,所述确定装置分别确定与多个用户相对应的地域信息。
具体地,在步骤S5'中,所述确定装置通过对用户设备进行地图定位、GPS定位、手动定位等方式,分别确定与多个用户相对应的地域信息。
其中,所述地图定位可以是将原始地图发送给所述用户,由用户进行手动选择自己所对应的区域,以确定与该用户相对应的地域信息;也可以是对该用户进行初始定位,如利用GPS进行初始定位,然后将初始定位的地图位置发送给所述用户,由用户进行二次确认后,确定所述用户所对应的地域信息。所述GPS定位即调用该用户设备的GPS信息以确定该用户的位置信息。所述手动定位即为用户通过手动输入自己所在的位置信息,以作为与所述用户相对应的地域信息。
当所述用户输入一条或多条输入信息时,在步骤S1'中,所述确定装置将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。
具体地,当所述用户输入一条或多条输入信息时,在步骤S1'中,所述确定装置将所确定的地域信息作为与该输入信息相对应的地域信息,并将该输入信息作为历史输入信息以供后续装置处理。从而,本发明可以先确定地域信息,再获取输入信息以作为历史输入信息。
优选地,在步骤S5'中,所述确定装置分别确定与多个用户相对应的候选地域信息;当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。
具体地,在步骤S5'中,所述确定装置通过对用户设备进行地图定位、GPS定位、手动定位等方式,分别确定与多个用户相对应的候选地域信息;其中,所述候选地域信息的确定方式与前述步骤S5’确定地域信息的方式相同或相似,故在此不再赘述,并通过引用的方式包含于此。
然后,在步骤S5'中,所述确定装置周期性地确定所述用户所在的候选地域信息,或是检测所述用户所在的候选地域信息是否发生变更;若所述候选地域信息在预定时间阈值内均未发生变更,则将所述候选地域信息作为与所述用户相对应的地域信息;否则,若所述候选地域信息在预定时间阈值内均发生变更,则所述候选地域信息不被作为与所述用户相对应的地域信息。
例如,若某用户为北京人,当他去河南出差时,则即使其在河南所输入的历史输入信息,也应属于是地域信息为北京的输入信息。因此,可以仅当用户在一个地点的时间超过一定时长,才将该地点作为该用户的地域信息。
其中,所述预定时间阈值可以是连续的时间,如连续在某地超过一定时长,也可是多个离散的时间的总和,如频繁出现在某地超过一定时间/次数等。而所述预定时间阈值的时长或方式,可以根据所述候选地域信息或地域信息所对应的具体位置、分级等级等进行确定:如若所述候选地域信息为“北京市”,则当该用户在北京市超过3天时,才将“北京市”作为该用户相对应的地域信息;而若所述候选地域信息为“西单”,则当该用户在西单超过2小时,才将“西单”作为该用户相对应的地域信息。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (21)

1.一种用于确定地域词库的方法,其中,该方法包括以下步骤:
a获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;
b根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;
c根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;
d从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
2.根据权利要求1所述的方法,其中,所述步骤a包括:
-获取多个用户的多个历史输入信息;
-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。
3.根据权利要求2所述的方法,其中,所述输入场景信息包括以下至少任一项:
-所述历史输入信息所对应的输入地点;
-所述历史输入信息所对应的输入时间;
-所述历史输入信息所对应的上下文信息;
-所述历史输入信息所对应的交互对象信息。
4.根据权利要求1所述的方法,其中,该方法还包括:
x分别确定与多个用户相对应的地域信息;
其中,所述步骤a包括:
-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。
5.根据权利要求4所述的方法,其中,所述步骤x包括:
-分别确定与多个用户相对应的候选地域信息;
-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤b包括:
-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;
-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
7.根据权利要求1至5中任一项所述的方法,其中,所述步骤c包括:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
8.根据权利要求7所述的方法,其中,所述步骤c包括:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
9.根据权利要求8所述的方法,其中,该方法还包括:
-根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。
10.根据权利要求1至5中任一项所述的方法,其中,该方法还包括:
-根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。
11.一种用于确定地域词库的确定装置,其中,所述确定装置包括:
获取装置,用于获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;
候选确定装置,用于根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;
通用确定装置,用于根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;
筛选装置,用于从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。
12.根据权利要求11所述的确定装置,其中,所述获取装置用于:
-获取多个用户的多个历史输入信息;
-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。
13.根据权利要求12所述的确定装置,其中,所述输入场景信息包括以下至少任一项:
-所述历史输入信息所对应的输入地点;
-所述历史输入信息所对应的输入时间;
-所述历史输入信息所对应的上下文信息;
-所述历史输入信息所对应的交互对象信息。
14.根据权利要求11所述的确定装置,其中,所述确定装置还包括:
地域确定装置,用于分别确定与多个用户相对应的地域信息;
其中,所述获取装置用于:
-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。
15.根据权利要求14所述的确定装置,其中,所述地域确定装置用于:
-分别确定与多个用户相对应的候选地域信息;
-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。
16.根据权利要求11至15中任一项所述的确定装置,其中,所述候选确定装置用于:
-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;
-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。
17.根据权利要求11至15中任一项所述的确定装置,其中,所述通用确定装置用于:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
18.根据权利要求17所述的确定装置,其中,所述通用确定装置用于:
-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。
19.根据权利要求18所述的确定装置,其中,所述确定装置还包括:
关联确定装置,用于根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。
20.根据权利要求11至15中任一项所述的确定装置,其中,所述确定装置还包括:
通用词库确定装置,用于根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。
21.一种输入设备,包括如权利要求11至20中任一项所述的确定装置。
CN201610970594.8A 2016-10-27 2016-10-27 一种用于确定地域词库的方法与装置 Active CN106528748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610970594.8A CN106528748B (zh) 2016-10-27 2016-10-27 一种用于确定地域词库的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610970594.8A CN106528748B (zh) 2016-10-27 2016-10-27 一种用于确定地域词库的方法与装置

Publications (2)

Publication Number Publication Date
CN106528748A CN106528748A (zh) 2017-03-22
CN106528748B true CN106528748B (zh) 2019-09-20

Family

ID=58326127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610970594.8A Active CN106528748B (zh) 2016-10-27 2016-10-27 一种用于确定地域词库的方法与装置

Country Status (1)

Country Link
CN (1) CN106528748B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669550B (zh) * 2017-10-17 2023-05-16 北京搜狗科技发展有限公司 一种获取用户词库的方法和装置
CN109213468B (zh) * 2018-08-23 2020-04-28 阿里巴巴集团控股有限公司 一种语音播放方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639863A (zh) * 2009-09-04 2010-02-03 腾讯科技(深圳)有限公司 一种加载城市词库的方法、系统和设备
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102843476A (zh) * 2012-09-12 2012-12-26 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN103455167A (zh) * 2013-08-18 2013-12-18 苏州量跃信息科技有限公司 基于地域信息调整输入法语料库的方法、客户端及系统
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254455A1 (en) * 2008-04-04 2009-10-08 Whereoware System and method for virtual canvas generation, product catalog searching, and result presentation
CN107589855B (zh) * 2012-05-29 2021-05-28 阿里巴巴集团控股有限公司 一种根据地理位置推荐候选词的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639863A (zh) * 2009-09-04 2010-02-03 腾讯科技(深圳)有限公司 一种加载城市词库的方法、系统和设备
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102843476A (zh) * 2012-09-12 2012-12-26 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN103455167A (zh) * 2013-08-18 2013-12-18 苏州量跃信息科技有限公司 基于地域信息调整输入法语料库的方法、客户端及系统
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统

Also Published As

Publication number Publication date
CN106528748A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN107256265B (zh) 一种搜索引擎结果数据可视化展示方法及系统
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
CN105701108B (zh) 一种信息推荐方法、装置及服务器
Fan et al. Paint mesh cutting
US11630560B2 (en) Map information display method and apparatus, electronic device, and computer storage medium
EP3940552A1 (en) Method for extracting geographic location point spatial relationship, method for training extraction model, and devices
CN105095625B (zh) 点击率预估模型建立方法、装置及信息提供方法、系统
CN103744887B (zh) 一种用于人物搜索的方法、装置和计算机设备
CN110110198A (zh) 一种网页信息抽取方法及装置
CN111667095A (zh) 预测经济状态、建立经济状态预测模型的方法及对应装置
CN106528748B (zh) 一种用于确定地域词库的方法与装置
EP4137985A1 (en) Intelligent voice interaction method and apparatus, device and computer storage medium
KR20170032366A (ko) 지도 중의 후보 주소 정보를 획득하기 위한 방법 및 장치
Chattopadhyay et al. Change‐point analysis through integer‐valued autoregressive process with application to some COVID‐19 data
CN111209351A (zh) 对象关系预测、对象推荐方法及装置、电子设备、介质
CN109257590A (zh) 一种裸眼3d沙盘显示系统及其方法
CN113220815A (zh) 区域信息处理方法及装置
CN105574139B (zh) 一种基于双吸引度计算的社交网络陌生交友推荐方法及系统
CN111104418A (zh) 文本描述的处理方法、装置和电子设备
CN108763560B (zh) 基于图模型的三维人体运动检索方法
CN116775815B (zh) 对话数据的处理方法、装置、电子设备及存储介质
US20220172310A1 (en) House-renting recommendation method, electronic device and storage medium
CN112861023A (zh) 地图信息处理方法、装置、设备、存储介质及程序产品
CN110413819B (zh) 一种图片描述信息的获取方法及装置
CN106055594A (zh) 基于用户兴趣的信息提供方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant