CN107346182A - 一种构建用户词库的方法、及用于构建用户词库的装置 - Google Patents

一种构建用户词库的方法、及用于构建用户词库的装置 Download PDF

Info

Publication number
CN107346182A
CN107346182A CN201610293455.6A CN201610293455A CN107346182A CN 107346182 A CN107346182 A CN 107346182A CN 201610293455 A CN201610293455 A CN 201610293455A CN 107346182 A CN107346182 A CN 107346182A
Authority
CN
China
Prior art keywords
user
keyword
field
thesaurus
user thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610293455.6A
Other languages
English (en)
Other versions
CN107346182B (zh
Inventor
涂畅
张扬
王砚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610293455.6A priority Critical patent/CN107346182B/zh
Publication of CN107346182A publication Critical patent/CN107346182A/zh
Application granted granted Critical
Publication of CN107346182B publication Critical patent/CN107346182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种构建用户词库的方法,包括:从用户的聊天内容中提取关键词,其中,所述关键词用于表示用户感兴趣的事物;将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为用户感兴趣的事物所属的领域。本发明有效地解决了现有的输入法应用程序所提供的词库,无法满足不同用户的输入偏好的技术问题。同时,本发明还提供了一种构建用户词库的装置。

Description

一种构建用户词库的方法、及用于构建用户词库的装置
技术领域
本发明涉及电子技术领域,尤其涉及一种构建用户词库的方法、及用于构建用户词库的装置。
背景技术
随着电子技术的发展,越来越多的智能设备(例如:电脑、智能手机、平板电脑、等等)走进了人们的生活,给人们带来了诸多便利。通常,在智能设备中通常安装有一输入法程序,用户可以使用输入法程序快捷地进行文字输入。
为了提高用户的输入效率,目前的输入法程序提供了多种“细胞词库”,“细胞词库”是专业精细的词库功能,为开放共享、可在线升级的细分化词库的功能名称。通过“细胞词库”功能,各个领域、行业、圈子的人群都能够大大提高其词库覆盖率。用户可以自主选择“细胞词库”,或者由智能设备基于用户的历史输入记录向用户推荐合适的“细胞词库”,从而提高用户词库的广度,减少由于词频低的专业词汇缺乏所带来的输入麻烦。目前用户使用较多的细胞词库有:“电视剧名大全”、“旅游词汇大全”、“计算机词汇大全”等等。
“细胞词库”在一定程度上可以提高用户的输入效率,但是,由于不同用户存在着不同的输入偏好,细胞词库无法满足不同用户的实际需求,用户的输入效率还是有待进一步提高。
发明内容
本申请实施例通过提供一种构建用户词库的方法、及用于构建用户词库的装置,解决了现有的输入法词库,无法满足不同用户存在不同输入偏好的技术问题。
一方面,本申请提供了一种构建用户词库的方法,包括:
从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;
将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
优选地,所述从用户的聊天内容中提取关键词,包括:
获取所述用户在聊天场景中输入的聊天内容;
检测所述聊天内容中是否存在预设字段,其中,所述预设字段用于表达所述用户对某件事物感兴趣的心理状态;
若存在,则确定所述聊天内容中包含所述关键词;
从所述预设字段的上下文聊天内容中提取所述关键词。
优选地,所述将所述关键词添加到第一领域的用户词库中,包括:
基于所述关键词,确定所述第一领域;
基于所述第一领域,判断所述关键词是否满足一预设条件;
若所述关键词满足所述预设条件,则将所述关键词添加到所述第一领域的用户词库中。
优选地,所述基于所述第一领域,判断所述关键词是否满足一预设条件,包括:
判断电子设备中是否安装有属于所述第一领域的应用程序;
若是,则所述关键词满足所述预设条件;
若否,则所述关键词不满足所述预设条件。
优选地,所述基于所述第一领域,判断所述关键词是否满足一预设条件,包括:
判断所述第一领域的用户词库中是否已收录所述关键词;
若是,则所述关键词不满足所述预设条件;
若否,则所述关键词满足所述预设条件。
优选地,在所述将所述关键词添加到第一领域的用户词库中之后,还包括:
确定所述关键词的频次信息,其中,所述频次信息用于表示所述关键词在所述聊天内容中出现的频率或次数;
将所述关键词的频次信息保存在所述第一领域的用户词库中。
优选地,在所述将所述关键词添加到第一领域的用户词库中之后,还包括:
获取与所述关键词相关的所述第一领域的其他关键词;
将所述其他关键词添加到所述第一领域的用户词库中。
优选地,所述方法还包括:
在检测到用户将属于所述第一领域的应用程序全部卸载时,删除所述第一领域的用户词库。
另一方面,基于同一发明构思,本申请提供了一种用于构建用户词库的装置,包括:
提取模块,用于从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;
第一添加模块,用于将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
优选地,所述提取模块,包括:
获取子模块,用于获取所述用户在聊天场景中输入的聊天内容;
检测子模块,用于检测所述聊天内容中是否存在预设字段,其中,所述预设字段用于表达所述用户对某件事物感兴趣的心理状态;
确定子模块,用于若存在,则确定所述聊天内容中包含所述关键词;
提取子模块,用于从所述预设字段的上下文聊天内容中提取所述关键词。
优选地,所述第一添加模块,包括:
判断子模块,用于判断所述关键词是否满足一预设条件;
添加子模块,用于若所述关键词满足所述预设条件,则将所述关键词添加到所述第一领域的用户词库中。
优选地,所述判断子模块,具体用于:
判断所述第一领域的用户词库中是否已收录所述关键词;若是,则所述关键词不满足所述预设条件;若否,则所述关键词满足所述预设条件。
优选地,所述判断子模块,具体用于:
判断电子设备中是否安装有属于所述第一领域的应用程序;若是,则所述关键词满足所述预设条件;若否,则所述关键词不满足所述预设条件。
优选地,所述构建用户词库的装置,还包括:
确定模块,用于确定所述关键词的频次信息,其中,所述频次信息用于表示所述关键词在所述聊天内容中出现的频率或次数;
保存模块,用于将所述关键词的频次信息保存在所述第一领域的用户词库中。
优选地,所述构建用户词库的装置,还包括:
获取模块,用于在所述将所述关键词添加到第一领域的用户词库中之后,获取与所述关键词相关的所述第一领域的其他关键词;
第二添加模块,用于将所述其他关键词添加到所述第一领域的用户词库中。
优选地,所述构建用户词库的装置,还包括:
删除模块,用于在检测到用户将属于所述第一领域的应用程序全部卸载时,删除所述第一领域的用户词库。
再一方面,基于同一发明构思,本申请提供了一种用于构建用户词库的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、在本申请实施例中,从用户的聊天内容中提取用户感兴趣的事物对应的关键词,再将提取到的关键词添加到对应领域的用户词库中。所以,有效地解决了现有的输入法词库,无法满足不同用户存在不同输入偏好的技术问题,实现了基于用户的聊天内容,为该用户建立不同领域的用户词库,从而满足不同用户的输入习惯,进而提高用户的输入效率的技术效果。
2、在本申请实施例中,从用户的聊天内容中提取用户感兴趣的事物对应的关键词,再将提取到的关键词添加到对应领域的用户词库中。所以,即使用户很少使用某领域的应用程序进行输入操作,也可以基于用户的聊天内容,建立该领域的用户词库,使得用户使用在该领域的应用程序过程中进行输入操作时(或用户在浏览该领域的网页过程中进行输入操作时),可以调用该领域的用户词库为用户提供候选词汇,从而提高输入效率。
3、在本申请实施例中,对于初次安装的某领域的首个应用程序,虽然没有用户使用该领域应用程序时的历史输入记录,但仍可以基于本实施例中的构建用户词库的方法,从聊天内容中提取到用户在该领域的关键词,从而建立该领域的用户词库。这样,在用户使用初次安装的某领域的首个应用程序过程中进行输入操作时,可以调用该领域的用户词库提供候选词汇,从而提高输入效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种构建用户词库的方法的流程图;
图2为本申请实施例中一种用于构建用户词库的装置200的结构框图;
图3为本申请实施例中一种用于构建用户词库的装置800的结构框图。
具体实施方式
本申请实施例通过提供一种构建用户词库的方法、及用于构建用户词库的装置,解决了现有的输入法应用程序所提供的词库,无法满足不同用户存在不同输入偏好的技术问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种构建用户词库的方法,包括:从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
本实施例提供了一种构建用户词库的方法,如图1所示,包括:
步骤S101:从用户的聊天内容中提取关键词,其中,关键词用于表示用户感兴趣的事物。
在具体实施过程中,所述聊天内容可以是用户以前输入的聊天内容(即:历史聊天内容),也可以是用户当前的正在输入的聊天内容。
在具体实施过程中,所述关键词存在于用户的聊天内容中,用于表示用户感兴趣的事物。例如,用户在聊天场景下输入了“我喜欢吃米线”,则“米线”即为用户感兴趣的事物,则可以将“米线”作为关键词进行提取;再例如,用户在聊天场景下输入了“我爱滑雪”,则“滑雪”即为用户感兴趣的事物,则可以将“滑雪”作为关键词进行提取;再例如,用户在聊天场景下输入了“北京烤鸭真好吃”,则“北京烤鸭”即为用户感兴趣的事物,则可以将“北京烤鸭”作为关键词进行提取;再例如,用户在聊天场景下输入了“碟中谍真好看”,则“碟中谍”即为用户感兴趣的事物,则可以将“碟中谍”作为关键词进行提取;再例如,用户在聊天场景下输入了“二泉映月真好听”,则“二泉映月”即为用户感兴趣的事物,则可以将“二泉映月”作为关键词进行提取。
作为一种可选的实施方式,步骤S101,包括:
获取用户在聊天场景中输入的聊天内容;检测聊天内容中是否存在预设字段,其中,预设字段用于表达用户对某件事物感兴趣的心理状态;若存在,则确定聊天内容中包含所述关键词;从预设字段的上下文(即:上文或下文)聊天内容中提取所述关键词。
在具体实施过程中,可以从电子设备(例如:电脑、智能手机、平板电脑等等)中已安装的聊天类应用程序(例如:QQ、微信、MSN、阿里旺旺、雅虎通、陌陌、米聊、易信、飞信、钉钉、263云通信等即时通信软件)的聊天数据中,获取用户的聊天内容。
在具体实施过程中,所述预设字段用于表达用户对某件事物感兴趣的心理状态。一般,用户在聊天时,若对某件事物感兴趣,会通过这些预设字段进行表达。例如,所述预设字段,可以是:“我喜欢……”、“我(最)爱……”、“……真棒”、“……好极了”、“……(真)不错”、“……(真)好看”、“……(真)好吃”、“……(真)好玩”、“……(真)好听”、“……(好)可爱”、等等,此处不再一一举例。
在具体实施过程中,可以通过在用户的聊天内容中检测是否存在任一上述预设字段,从而判断在聊天内容中是否存在用户感兴趣的事物,在检测到有上述某个预设字段时,则确定在用户的聊天内容中存在用户感兴趣的事物,可以在该预设字段的上下文聊天内容中提取用户感兴趣的事物对应的关键词。
举例来讲,用户在聊天场景下输入了“我喜欢吃米线”,“米线”即为用户感兴趣的事物,则提取关键词“米线”;再例如,用户在聊天场景下输入了“我爱滑雪”,“滑雪”即为用户感兴趣的事物,则提取关键词“滑雪”;再例如,用户在聊天场景下输入了“北京烤鸭真好吃”,“北京烤鸭”即为用户感兴趣的事物,则提取关键词“北京烤鸭”;再例如,用户在聊天场景下输入了“碟中谍真好看”,“碟中谍”即为用户感兴趣的事物,则提取关键词“碟中谍”;再例如,用户在聊天场景下输入了“二泉映月真好听”,“二泉映月”即为用户感兴趣的事物,则提取关键词“二泉映月”。
步骤S102:将关键词添加到第一领域的用户词库中,其中,第一领域为用户感兴趣的事物所属的领域。
在具体实施过程中,可以基于用户感兴趣的事物对应的关键词,确定用户感兴趣的事物所属的领域(即:第一领域),再将该关键词添加到对应领域的用户词库中。
举例来讲,在提取到关键词“米线”时,由于“米线”是一种食品,则确定“米线”属于餐饮领域,进一步推测用户以后在使用餐饮类应用程序(例如:口碑外卖、美团外卖、饿了么、百度外卖、等等)时,或浏览餐饮类网页时,可能会经常输入“米线”,所以将关键词“米线”添加到餐饮领域的用户词库中。
举例来讲,在提取到关键词“滑雪”时,由于“滑雪”是一个旅游项目,则确定“滑雪”属于旅游领域,进一步推测用户以后在使用旅游类应用程序(例如:途牛旅游、携程旅行、去哪儿旅行、阿里旅行、等等)时,或浏览旅游类网页时,可能会经常输入“滑雪”,所以将关键词“滑雪”添加到旅游领域的用户词库中。
举例来讲,在提取到关键词“碟中谍”时,由于“碟中谍”是一部电影,则确定“碟中谍”属于视频领域,进一步推测用户在以后在使用视频类应用程序(例如:优酷视频、腾讯视频、爱奇艺视频、搜狐视频、等等)时,或浏览视频类网页时,可能会经常输入“碟中谍”,所以将关键词“碟中谍”添加到视频领域的用户词库中。
举例来讲,在提取到关键词“二泉映月”时,由于“二泉映月”是一首乐曲,则确定“二泉映月”属于音乐领域,进一步推测用户在以后在使用音乐类应用程序(例如:QQ音乐、酷狗音乐、虾米音乐、百度音乐、等等)时,或浏览音乐类网页时,可能会经常输入“二泉映月”,所以将关键词“二泉映月”添加到音乐领域的用户词库中。
据统计,用户大部分的输入操作都集中在聊天环境下,从聊天内容中提取关键词,而不是从用户全部场景下的输入内容中提取关键词,这样可以降低数据处理量,提高对关键词的提取效率。另外,由于用户在聊天时会经常谈到自己感兴趣的事物,聊天内容可以比较真实地反映用户的兴趣爱好,所以从聊天内容中提取关键词,更有利于构建能够满足用户输入偏好的用户词库。
在本实施例中,从用户的聊天内容中提取出用户在不同领域感兴趣的事物对应的关键词,以此为用户构建不同领域的用户词库,这样,在用户使用某一领域的应用程序过程中进行文字输入时(或在用户浏览某一领域的网页过程中进行文字输入时),则可以调用该领域的用户词库为用户提供候选词汇,从而满足用户的实际输入需求,提高文字的输入效率。
举例来讲,在检测到用户A打开一音乐类应用程序,并在该应用程序的UI(User Interface,用户界面)的输入区域内进行文字输入时(或在检测到用户A打开一音乐类网页,并在该网页的输入区域内进行文字输入时),则调用用户A的音乐领域的用户词库,来为用户A提供候选词汇。
在本实施例中,从用户的聊天内容中提取用户感兴趣的事物对应的关键词,再将提取到的关键词添加到对应领域的用户词库中,所以满足了不同用户的输入习惯,从而提高了用户的输入效率。
在本实施例中,从用户的聊天内容中提取用户感兴趣的事物对应的关键词,再将提取到的关键词添加到对应领域的用户词库中。这样,即使用户很少使用某领域的应用程序进行输入操作,也可以基于用户的聊天内容,建立该领域的用户词库,在用户以后在该领域的应用程序中进行输入时,可以调用该领域的用户词库为用户提供候选词汇,从而提高输入效率。
且,对于初次安装某领域的首个应用程序(例如:A领域的APP_1),虽然没有用户使用A领域APP的历史输入记录,但仍可以基于本实施例中的构建用户词库的方法,从聊天内容中提取到用户在A领域的关键词,从而建立A领域的用户词库。这样,在用户使用APP_1进行输入操作时,则可以调用A领域的用户词库提供候选词汇,从而提高输入效率。
此外,作为一种可选的实施方式,在步骤S102之前,还包括:
判断关键词是否满足一预设条件;若满足,则执行步骤S102;否则,忽略该关键词。
在具体实施过程中,所述判断关键词是否满足一预设条件,包括以下两种实施方式:
方式一:判断第一领域的用户词库中是否已收录该关键词;若是,则该关键词不满足预设条件;若否,则该关键词满足预设条件。该方式适用于用户使用第一领域的应用程序过程中进行文字输入的场景,也适用于用户浏览第一领域的网页过程中进行文字输入的场景。
举例来讲,在提取到关键词“米线”时,判断餐饮领域的用户词库中是否已收录“米线”这个关键词,若没收录,则将“米线”添加到餐饮领域的用户词库中;若已收录,则忽略“米线”这个关键词,并跳转执行步骤S101,提取下一个关键词。
在此方式中,若第一领域的用户词库中已收录该关键词,则忽略该关键词,从而避免收录重复的关键词,从而节约了存储空间。
方式二:判断电子设备中是否安装有属于第一领域的应用程序;若是,则该关键词满足预设条件;否则,该关键词不满足预设条件。该方式适用于用户使用第一领域的应用程序过程中进行文字输入的场景,不适用于用户浏览第一领域的网页过程中进行文字输入的场景。
举例来讲,在提取到关键词“滑雪”时,判断用户的电子设备中是否安装有旅游领域的应用程序,若已安装,则将“滑雪”添加到旅游领域的用户词库中;若未安装,则忽略“滑雪”这个关键词,并跳转执行步骤S101,提取下一个关键词。
在此方式中,若电子设备没有安装第一领域的应用程序,则不建立第一领域的用户词库,从而节约了存储空间。
作为一种可选的实施方式,在步骤S102之后,还包括:
确定关键词的频次信息,其中,所述频次信息用于表示关键词在聊天内容中出现的频率或次数;将关键词的频次信息保存在第一领域的用户词库中。这样,在用户在第一领域的应用程序中进行文字输入时(或用户在第一领域的网页上进行文字输入时),可以将第一领域的用户词库中的频次高的关键词作为候选词优先推荐给用户。
举例来讲,在用户的聊天内容中提取到视频领域的关键词“大丈夫”、“毒战”、“碟中谍”、“大宅门”,并将这些关键词添加到视频领域的用户词库后,可以进一步确定每个关键词的频次信息(假设:“大丈夫”出现2次、“毒战”出现1次,“大宅门”出现5次、“碟中谍”出现20次),再将每个关键词的频次信息也保存在视频领域的用户词库中。这样,在用户打开一视频类应用程序(或打开一视频类网页)并在视频搜索栏中输入“d”、“z”,时,基于对这两个汉语拼音进行模糊搜索,从视频类的用户词库中确定的候选词汇有“大丈夫”、“毒战”、“碟中谍”、“大宅门”,进一步基于每个关键词的频次信息,确定每个关键词在用户的聊天内容中出现的频率或次数,其中,频次越高的候选词被用户选中的几率越高,再按照频率或次数由高到低的顺序对这些候选词进行排序,排序结果为“碟中谍”、“大宅门”、“大丈夫”、“毒战”,则在输入法程序的候选词显示栏内依次输出“碟中谍”、“大宅门”、“大丈夫”、“毒战”。
作为一种可选的实施方式,在步骤S102之后,还包括:获取与关键词相关的第一领域的其他关键词;将其他关键词添加到第一领域的用户词库中。
举例来讲,在所述关键词为“米线”时,可以获取与“米线”相关的其他关键词,并将获取到的其他关键词添加到饮食领域的用户词库中。其他关键词可以是不同口味的米线(例如:“过桥米线”、“酸辣肥牛米线”、“红汤牛肉米线”、“飘香鱼米线”,“清汤鸡丝米线”、“酥肉砂锅米线”、“泡椒鸡杂米线”、等等),其他关键词也可以是不同的米线商家名称(例如:“云南蒙自米线店”、“四川乐山砂锅米线”、“沈小福米线”、“刘三姐米线”、等等)。其中,这些其他关键词的来源,可以是:预先设置的,或基于其他用户的餐饮领域的用户词库进行分析收集的。
作为一种可选的实施方式,在步骤S102之后,还包括:在检测到用户将属于所述第一领域的应用程序全部卸载时,删除所述第一领域的用户词库。
在具体实施过程中,在检测到用户将第一领域的应用程序全部卸载时,可以弹出一窗口,询问用户是否删除第一领域的用户词库,若用户同意删除,则删除第一领域的用户词库,从而节约存储空间。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、在本申请实施例中,从用户的聊天内容中提取用户感兴趣的事物对应的关键词,再将提取到的关键词添加到对应领域的用户词库中。所以,有效地解决了现有的输入法应用程序所提供的词库,无法满足不同用户的输入偏好的技术问题,实现了基于用户的聊天内容,为该用户建立不同领域的用户词库,从而满足不同用户的输入习惯,进而提高用户的输入效率的技术效果。
2、在本申请实施例中,从用户的聊天内容中提取用户感兴趣的事物对应的关键词,再将提取到的关键词添加到对应领域的用户词库中。所以,即使用户很少使用某领域的应用程序进行输入操作,也可以基于用户的聊天内容,建立该领域的用户词库,使得用户在使用该领域的应用程序过程中进行输入操作时(或用户在浏览该领域的网页过程中进行输入操作时),可以调用该领域的用户词库为用户提供候选词汇,从而提高输入效率。
3、在本申请实施例中,对于初次安装的某领域的首个应用程序,虽然没有用户使用该领域应用程序时的历史输入记录,但仍可以基于本实施例中的构建用户词库的方法,从聊天内容中提取到用户在该领域的关键词,从而建立该领域的用户词库。这样,在用户使用初次安装的某领域的首个应用程序过程中进行输入操作时,可以调用该领域的用户词库提供候选词汇,从而提高输入效率。
实施例二
本实施例提供了一种用于构建用户词库的装置200,如图2所示,包括:
提取模块201,用于从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;
第一添加模块202,用于将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
作为一种可选的实施方式,所述提取模块201,包括:
获取子模块,用于获取所述用户在聊天场景中输入的聊天内容;
检测子模块,用于检测所述聊天内容中是否存在预设字段,其中,所述预设字段用于表达所述用户对某件事物感兴趣的心理状态;
确定子模块,用于若存在,则确定所述聊天内容中包含所述关键词;
提取子模块,用于从所述预设字段的上下文聊天内容中提取所述关键词。
作为一种可选的实施方式,其特征在于,所述第一添加模块202,包括:
判断子模块,用于判断所述关键词是否满足一预设条件;
添加子模块,用于若所述关键词满足所述预设条件,则将所述关键词添加到所述第一领域的用户词库中。
作为一种可选的实施方式,所述判断子模块,具体用于:
判断所述第一领域的用户词库中是否已收录所述关键词;若是,则所述关键词不满足所述预设条件;若否,则所述关键词满足所述预设条件。
作为一种可选的实施方式,所述判断子模块,具体用于:
判断电子设备中是否安装有属于所述第一领域的应用程序;若是,则所述关键词满足所述预设条件;若否,则所述关键词不满足所述预设条件。
作为一种可选的实施方式,所述用于构建用户词库的装置,还包括:
确定模块,用于在将所述关键词添加到第一领域的用户词库中之后,确定所述关键词的频次信息,其中,所述频次信息用于表示所述关键词在所述聊天内容中出现的频率或次数;
保存模块,用于将所述关键词和所述关键词的频次信息保存到所述第一领域的用户词库中。
作为一种可选的实施方式,所述用于构建用户词库的装置,还包括:
获取模块,用于在所述将所述关键词添加到第一领域的用户词库中之后,获取与所述关键词相关的所述第一领域的其他关键词;
第二添加模块,用于将所述其他关键词添加在所述第一领域的用户词库中。
作为一种可选的实施方式,所述用于构建用户词库的装置,还包括:
删除模块,用于在检测到用户将属于所述第一领域的应用程序全部卸载时,删除所述第一领域的用户词库。
关于上述实施例中的一种用于构建用户词库的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出一种用于构建用户词库的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种构建用户词库的方法,包括:从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种构建用户词库的方法,其特征在于,包括:
从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;
将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
2.如权利要求1所述的构建用户词库的方法,其特征在于,所述从用户的聊天内容中提取关键词,包括:
获取所述用户在聊天场景中输入的聊天内容;
检测所述聊天内容中是否存在预设字段,其中,所述预设字段用于表达所述用户对某件事物感兴趣的心理状态;
若存在,则确定所述聊天内容中包含所述关键词;
从所述预设字段的上下文聊天内容中提取所述关键词。
3.如权利要求1所述的构建用户词库的方法,其特征在于,所述将所述关键词添加到第一领域的用户词库中之前,还包括:
判断所述关键词是否满足一预设条件;
若所述关键词满足所述预设条件,则执行所述将所述关键词添加到所述第一领域的用户词库中。
4.如权利要求3所述的构建用户词库的方法,其特征在于,所述判断所述关键词是否满足一预设条件,包括:
判断所述第一领域的用户词库中是否已收录所述关键词;
若是,则所述关键词不满足所述预设条件;
若否,则所述关键词满足所述预设条件。
5.如权利要求3所述的构建用户词库的方法,其特征在于,所述判断所述关键词是否满足一预设条件,包括:
判断电子设备中是否安装有属于所述第一领域的应用程序;
若是,则所述关键词满足所述预设条件;
若否,则所述关键词不满足所述预设条件。
6.如权利要求1所述的构建用户词库的方法,其特征在于,在所述将所述关键词添加到第一领域的用户词库中之后,还包括:
确定所述关键词的频次信息,其中,所述频次信息用于表示所述关键词在所述聊天内容中出现的频率或次数;
将所述关键词的频次信息保存在所述第一领域的用户词库中。
7.如权利要求1所述的构建用户词库的方法,其特征在于,在所述将所述关键词添加到第一领域的用户词库中之后,还包括:
获取与所述关键词相关的所述第一领域的其他关键词;
将所述其他关键词添加到所述第一领域的用户词库中。
8.如权利要求1~7任一所述的构建用户词库的方法,其特征在于,所述方法还包括:
在检测到用户将属于所述第一领域的应用程序全部卸载时,删除所述第一领域的用户词库。
9.一种用于构建用户词库的装置,其特征在于,包括:
提取模块,用于从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;
第一添加模块,用于将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
10.一种用于构建用户词库的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从用户的聊天内容中提取关键词,其中,所述关键词用于表示所述用户感兴趣的事物;将所述关键词添加到第一领域的用户词库中,其中,所述第一领域为所述用户感兴趣的事物所属的领域。
CN201610293455.6A 2016-05-05 2016-05-05 一种构建用户词库的方法、及用于构建用户词库的装置 Active CN107346182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610293455.6A CN107346182B (zh) 2016-05-05 2016-05-05 一种构建用户词库的方法、及用于构建用户词库的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610293455.6A CN107346182B (zh) 2016-05-05 2016-05-05 一种构建用户词库的方法、及用于构建用户词库的装置

Publications (2)

Publication Number Publication Date
CN107346182A true CN107346182A (zh) 2017-11-14
CN107346182B CN107346182B (zh) 2021-11-02

Family

ID=60253734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610293455.6A Active CN107346182B (zh) 2016-05-05 2016-05-05 一种构建用户词库的方法、及用于构建用户词库的装置

Country Status (1)

Country Link
CN (1) CN107346182B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399013A (zh) * 2018-03-16 2018-08-14 北京搜狗科技发展有限公司 一种用户词添加方法及装置
CN109597498A (zh) * 2018-11-29 2019-04-09 北京蓦然认知科技有限公司 一种基于场景的输入方法、装置、设备
CN110134703A (zh) * 2019-05-21 2019-08-16 秒针信息技术有限公司 一种关键词库更新方法及装置
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN113010665A (zh) * 2019-12-20 2021-06-22 北京搜狗科技发展有限公司 一种词处理的方法及相关装置
CN113573132A (zh) * 2021-07-23 2021-10-29 深圳康佳电子科技有限公司 一种基于语音实现的多应用拼屏方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007233B1 (en) * 1999-03-03 2006-02-28 Fujitsu Limited Device and method for entering a character string
CN101271459A (zh) * 2007-03-22 2008-09-24 北京搜狗科技发展有限公司 一种生成词库的方法、一种输入的方法和一种输入法系统
CN101470732A (zh) * 2007-12-26 2009-07-01 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN101571758A (zh) * 2009-06-04 2009-11-04 腾讯科技(深圳)有限公司 一种输入法系统、方法和装置
CN101645065A (zh) * 2008-08-05 2010-02-10 北京搜狗科技发展有限公司 确定需要加载的辅助词库的方法、装置及输入法系统
CN102646022A (zh) * 2012-04-10 2012-08-22 北京搜狗科技发展有限公司 一种获取候选项的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007233B1 (en) * 1999-03-03 2006-02-28 Fujitsu Limited Device and method for entering a character string
CN101271459A (zh) * 2007-03-22 2008-09-24 北京搜狗科技发展有限公司 一种生成词库的方法、一种输入的方法和一种输入法系统
CN101470732A (zh) * 2007-12-26 2009-07-01 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN101645065A (zh) * 2008-08-05 2010-02-10 北京搜狗科技发展有限公司 确定需要加载的辅助词库的方法、装置及输入法系统
CN101571758A (zh) * 2009-06-04 2009-11-04 腾讯科技(深圳)有限公司 一种输入法系统、方法和装置
CN102646022A (zh) * 2012-04-10 2012-08-22 北京搜狗科技发展有限公司 一种获取候选项的方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399013A (zh) * 2018-03-16 2018-08-14 北京搜狗科技发展有限公司 一种用户词添加方法及装置
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN109597498A (zh) * 2018-11-29 2019-04-09 北京蓦然认知科技有限公司 一种基于场景的输入方法、装置、设备
CN110134703A (zh) * 2019-05-21 2019-08-16 秒针信息技术有限公司 一种关键词库更新方法及装置
CN113010665A (zh) * 2019-12-20 2021-06-22 北京搜狗科技发展有限公司 一种词处理的方法及相关装置
CN113573132A (zh) * 2021-07-23 2021-10-29 深圳康佳电子科技有限公司 一种基于语音实现的多应用拼屏方法、装置及存储介质
CN113573132B (zh) * 2021-07-23 2023-08-11 深圳康佳电子科技有限公司 一种基于语音实现的多应用拼屏方法、装置及存储介质

Also Published As

Publication number Publication date
CN107346182B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN107346182A (zh) 一种构建用户词库的方法、及用于构建用户词库的装置
US11520824B2 (en) Method for displaying information, electronic device and system
CN106708282B (zh) 一种推荐方法和装置、一种用于推荐的装置
US11394675B2 (en) Method and device for commenting on multimedia resource
CN104166689B (zh) 电子书籍的呈现方法及装置
CN106484138B (zh) 一种输入方法及装置
CN108432190A (zh) 应答消息推荐方法及其设备
CN110147467A (zh) 一种文本描述的生成方法、装置、移动终端及存储介质
CN104331503B (zh) 信息推送的方法及装置
CN109522419A (zh) 会话信息补全方法及装置
CN109189986B (zh) 信息推荐方法、装置、电子设备和可读存储介质
CN107305566B (zh) 一种为搜索信息匹配图片的方法及装置
CN110222256B (zh) 一种信息推荐方法、装置和用于信息推荐的装置
CN108038102A (zh) 表情图像的推荐方法、装置、终端及存储介质
CN107291772A (zh) 一种搜索访问方法、装置及电子设备
CN107045541A (zh) 数据显示方法和装置
CN106777016A (zh) 基于即时通信进行信息推荐的方法及装置
CN110110204A (zh) 一种信息推荐方法、装置和用于信息推荐的装置
CN110019885A (zh) 一种表情数据推荐方法及装置
CN108717403B (zh) 一种处理方法、装置和用于处理的装置
CN107256242A (zh) 搜索结果显示方法及装置、终端、服务器及存储介质
CN110413169A (zh) 一种信息展示方法、装置及介质
CN107707759A (zh) 终端控制方法、装置以及系统、存储介质
CN110019883A (zh) 获取表情图片的方法及装置
CN107436896A (zh) 一种输入推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant