JP6781760B2 - 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 - Google Patents
複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 Download PDFInfo
- Publication number
- JP6781760B2 JP6781760B2 JP2018541179A JP2018541179A JP6781760B2 JP 6781760 B2 JP6781760 B2 JP 6781760B2 JP 2018541179 A JP2018541179 A JP 2018541179A JP 2018541179 A JP2018541179 A JP 2018541179A JP 6781760 B2 JP6781760 B2 JP 6781760B2
- Authority
- JP
- Japan
- Prior art keywords
- cross
- computer
- word
- layer pattern
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Description
(1)反対者は、開放予備選挙が違憲であると論ずる。
(2)リチャードは、プロプライエタリ・ソフトウェア(proprietary software)が一般的に悪意のある特徴を含むと言う。
(3)大多数は、修正第1項が他に違反する権利を保証しないと述べる。
[誰かが(someone)][論ずる(argue)/言う(say)/述べる(state)][that][トピックに関連する何か(something-related-to-the-topic)]
[名詞][動詞表現の上位語][that接続詞][名詞&トピックの辞書からの単語]
202:処理ユニット
204:コンピューティング・ユニット
206:プログラム・ストア
208:データ・インターフェース
210:データ・リポジトリ
210A:訓練テキスト・リポジトリ
210B:分類器リポジトリ
210C:クロス・レイヤ・パターン・リポジトリ
210D:特徴値リポジトリ
212:ユーザ・インターフェース
214:ディスプレイ
Claims (18)
- テキストにおけるターゲット意味的現象を識別する少なくとも1つのクロス・レイヤ・パターンを出力するためのコンピュータ実施方法であって、
前記ターゲット意味的現象を表すものとして指定された複数の訓練テキスト断片の各訓練テキスト断片の少なくとも幾つかの単語の各単語について、それぞれのレイヤにより定められる複数の特徴値を抽出することと、
前記複数の訓練テキスト断片について識別された前記複数の特徴値を統計的に分析して、前記複数の訓練テキスト断片についての共通のパターンを表す複数のレイヤを含む少なくとも1つのクロス・レイヤ・パターンを識別することであって、前記共通のクロス・レイヤ・パターンは、少なくとも1つの単語のそれぞれのレイヤの少なくとも1つの特徴値及び別の単語の別のそれぞれのレイヤの少なくとも別の特徴値を定める、分析することと、
前記ターゲット意味的現象を表すテキスト断片を識別するために、前記識別された少なくとも1つのクロス・レイヤ・パターンを出力することと、
を含む、方法。 - 新しいテキスト断片から抽出された特徴値を前記少なくとも1つのクロス・レイヤ・パターンの少なくとも1つと照合する又は相関させることによって、前記ターゲット意味的現象を識別するように統計的分類器を訓練することと、
新しいテキストを分析して前記ターゲット意味的現象を表す少なくとも1つの新しいテキスト断片を識別するために、前記訓練された統計的分類器を格納又は伝送することと、をさらに含む、請求項1に記載の方法。 - 前記それぞれのレイヤにより定められる前記複数の特徴値を抽出することは、前記ターゲット意味的現象を表さないものとして指定された訓練テキスト断片に対して実行され、前記統計的分類器は、前記ターゲット意味的現象を表さないものとして指定された前記訓練テキスト断片から抽出した前記特徴値に基づいて訓練される、請求項2に記載の方法。
- 前記クロス・レイヤ・パターンは、前記ターゲット意味的現象を含むテキスト断片内に現れない少なくとも1つの負の特徴値を含む、請求項1に記載のコンピュータ実施方法。
- 前記少なくとも1つのクロス・レイヤ・パターンの前記複数のレイヤの各レイヤは、意味的知識、統語的知識、ドメイン知識、タスク・エキスパートによる知識の注入、前記単語の品詞(POS)タグ、前記単語の上位語、前記単語により表される固有エンティティ、前記単語により表される感情、所定の辞書に現れる単語からなる群から選択されるメンバーである、請求項1に記載のコンピュータ実施方法。
- 前記クロス・レイヤ・パターンは、複数の異なるレイヤと関連した前記テキスト断片内の少なくとも1つの単語を含む、請求項1に記載のコンピュータ実施方法。
- 前記複数の異なるレイヤは、前記少なくとも1つの単語に対して組み合わされる、請求項1に記載のコンピュータ実施方法。
- 前記クロス・レイヤ・パターンは、各々異なるレイヤと関連した前記テキスト断片内の少なくとも2つの異なる単語を含む、請求項1に記載のコンピュータ実施方法。
- 前記少なくとも2つの異なる単語と関連した前記異なるレイヤは、前記クロス・レイヤ・パターン内の順序により定められる、請求項1に記載のコンピュータ実施方法。
- 前記ターゲット意味的現象は、定義、トピックの又はトピックに反する証拠を提供するステートメント、証拠なしにトピックについて何かが事実であるという、エンティティによりなされるステートメント、及びトピックについてエンティティにより表現される感情からなる群から選択されるメンバーである、請求項1に記載のコンピュータ実施方法。
- 前記クロス・レイヤ・パターンは、各々異なる単語からの少なくとも2つのレイヤの間の少なくとも1つの定められたギャップを含む、請求項1に記載のコンピュータ実施方法。
- 前記クロス・レイヤ・パターンは、特徴を繰り返し組み合わせてより長いクロス・レイヤ・パターンを生成することによって生成される、請求項1に記載のコンピュータ実施方法。
- 各々の繰り返しの終わりに貪欲分析を適用して正確な予測の確率に従ってランク付けされた上位の所定数のクロス・レイヤ・パターンを識別することをさらに含む、請求項12に記載のコンピュータ実施方法。
- 前記上位の所定数のクロス・レイヤ・パターンは、他の以前に選択されたより高いランクの特徴を有する相関要件に基づいて選択される、請求項13に記載のコンピュータ実施方法。
- 前記特徴を組み合わせることは、別の単語の別の特徴を組み合わせて及び順番に付加することによって実行される、請求項12に記載のコンピュータ実施方法。
- 前記特徴を組み合わせることは、同じ単語の別の特徴を組み合わせて付加することによって実行される、請求項12に記載のコンピュータ実施方法。
- 方法の請求項1から16のいずれか一項に記載の前記方法の全てのステップを実行するように適合された手段を含むシステム。
- コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータ・システム上で実行されるとき、方法の請求項1から16のいずれか一項に記載の前記方法の全てのステップを実行するための命令を含む、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/018,877 | 2016-02-09 | ||
US15/018,877 US10073834B2 (en) | 2016-02-09 | 2016-02-09 | Systems and methods for language feature generation over multi-layered word representation |
PCT/IB2017/050276 WO2017137859A1 (en) | 2016-02-09 | 2017-01-19 | Systems and methods for language feature generation over multi-layered word representation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019511036A JP2019511036A (ja) | 2019-04-18 |
JP6781760B2 true JP6781760B2 (ja) | 2020-11-04 |
Family
ID=59497694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018541179A Active JP6781760B2 (ja) | 2016-02-09 | 2017-01-19 | 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10073834B2 (ja) |
JP (1) | JP6781760B2 (ja) |
CN (1) | CN108604228B (ja) |
GB (1) | GB2562983A (ja) |
WO (1) | WO2017137859A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10719661B2 (en) * | 2018-05-16 | 2020-07-21 | United States Of America As Represented By Secretary Of The Navy | Method, device, and system for computer-based cyber-secure natural language learning |
CN110716852B (zh) * | 2018-07-12 | 2023-06-23 | 伊姆西Ip控股有限责任公司 | 用于生成自动化测试脚本的系统、方法和介质 |
DE102018213021A1 (de) | 2018-08-03 | 2020-02-06 | Robert Bosch Gmbh | Computerimplementiertes Verfahren und Vorrichtung für Textanalyse |
CN110874408B (zh) * | 2018-08-29 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 模型训练方法、文本识别方法、装置及计算设备 |
CN111291561B (zh) * | 2018-12-07 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置和系统 |
CN109697291B (zh) * | 2018-12-29 | 2023-04-18 | 北京百度网讯科技有限公司 | 文本的语义段落识别方法和装置 |
CN110175233B (zh) * | 2019-03-07 | 2022-03-11 | 平安科技(深圳)有限公司 | 目标主体画像分析的方法、装置、计算机装置及存储介质 |
CN110069781B (zh) * | 2019-04-24 | 2022-11-18 | 北京奇艺世纪科技有限公司 | 一种实体标签的识别方法及相关设备 |
US11544461B2 (en) * | 2019-05-14 | 2023-01-03 | Intel Corporation | Early exit for natural language processing models |
CN110413749B (zh) * | 2019-07-03 | 2023-06-20 | 创新先进技术有限公司 | 确定标准问题的方法及装置 |
CN110969015B (zh) * | 2019-11-28 | 2023-05-16 | 国网上海市电力公司 | 一种基于运维脚本的标签自动化识别方法和设备 |
CN111274790B (zh) * | 2020-02-13 | 2023-05-16 | 东南大学 | 基于句法依存图的篇章级事件嵌入方法及装置 |
CN111597810B (zh) * | 2020-04-13 | 2024-01-05 | 广东工业大学 | 一种半监督解耦的命名实体识别方法 |
CN111695117B (zh) * | 2020-06-12 | 2023-10-03 | 国网浙江省电力有限公司信息通信分公司 | 一种webshell脚本检测方法及装置 |
CN111753498B (zh) * | 2020-08-10 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
US20220207235A1 (en) * | 2020-12-30 | 2022-06-30 | Baidu Usa Llc | Method, apparatus and storage medium for determining destination on map |
KR102435035B1 (ko) * | 2021-02-19 | 2022-08-22 | 성균관대학교산학협력단 | 가짜 뉴스 동영상 탐지 시스템 및 그의 방법 |
CN114781400B (zh) * | 2022-06-17 | 2022-09-09 | 之江实验室 | 一种跨媒体知识语义表达方法和装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725493B2 (en) * | 2004-01-06 | 2014-05-13 | Neuric Llc | Natural language parsing method to provide conceptual flow |
JP3372532B2 (ja) * | 2000-10-11 | 2003-02-04 | 日本電信電話株式会社 | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 |
JP2003150186A (ja) * | 2001-11-16 | 2003-05-23 | Nippon Telegr & Teleph Corp <Ntt> | ロボットシステム、ロボット制御方法、ロボット制御装置及びロボット制御プログラム |
US20060009966A1 (en) | 2004-07-12 | 2006-01-12 | International Business Machines Corporation | Method and system for extracting information from unstructured text using symbolic machine learning |
JP4047885B2 (ja) * | 2005-10-27 | 2008-02-13 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US8423348B2 (en) * | 2006-03-08 | 2013-04-16 | Trigent Software Ltd. | Pattern generation |
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN102439590A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
CN102023986B (zh) * | 2009-09-22 | 2015-09-30 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
US8533208B2 (en) * | 2009-09-28 | 2013-09-10 | Ebay Inc. | System and method for topic extraction and opinion mining |
JP2011118689A (ja) * | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
JP5388038B2 (ja) * | 2009-12-28 | 2014-01-15 | 独立行政法人情報通信研究機構 | 文書要約装置、文書処理装置、及びプログラム |
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
DK2639749T3 (en) * | 2012-03-15 | 2017-02-27 | Cortical Io Gmbh | Methods, apparatus and products for semantic processing of text |
US20140156264A1 (en) | 2012-11-19 | 2014-06-05 | University of Washington through it Center for Commercialization | Open language learning for information extraction |
KR101448228B1 (ko) * | 2013-02-12 | 2014-10-10 | 이주양 | 소셜 데이터 분석 장치 및 방법 |
US9292490B2 (en) * | 2013-08-16 | 2016-03-22 | International Business Machines Corporation | Unsupervised learning of deep patterns for semantic parsing |
CN104699695B (zh) * | 2013-12-05 | 2018-06-19 | 中国科学院软件研究所 | 一种基于多特征语义树核的关系抽取方法和信息检索方法 |
US20150310862A1 (en) * | 2014-04-24 | 2015-10-29 | Microsoft Corporation | Deep learning for semantic parsing including semantic utterance classification |
CN105095229A (zh) * | 2014-04-29 | 2015-11-25 | 国际商业机器公司 | 训练主题模型的方法,对比文档内容的方法和相应的装置 |
US9582495B2 (en) * | 2014-06-17 | 2017-02-28 | Business Objects Software Ltd. | Domain knowledge driven semantic extraction system |
CN104281566A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种语义化文本描述方法及系统 |
CN104298658B (zh) * | 2014-10-29 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 获取搜索结果的方法和装置 |
CN104462066B (zh) * | 2014-12-24 | 2017-10-03 | 北京百度网讯科技有限公司 | 语义角色标注方法及装置 |
JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
-
2016
- 2016-02-09 US US15/018,877 patent/US10073834B2/en active Active
-
2017
- 2017-01-19 CN CN201780010468.0A patent/CN108604228B/zh active Active
- 2017-01-19 WO PCT/IB2017/050276 patent/WO2017137859A1/en active Application Filing
- 2017-01-19 GB GB1814449.3A patent/GB2562983A/en not_active Withdrawn
- 2017-01-19 JP JP2018541179A patent/JP6781760B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
GB2562983A (en) | 2018-11-28 |
US20170228365A1 (en) | 2017-08-10 |
GB201814449D0 (en) | 2018-10-17 |
CN108604228B (zh) | 2022-12-02 |
US10073834B2 (en) | 2018-09-11 |
CN108604228A (zh) | 2018-09-28 |
JP2019511036A (ja) | 2019-04-18 |
WO2017137859A1 (en) | 2017-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6781760B2 (ja) | 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 | |
US10789552B2 (en) | Question answering system-based generation of distractors using machine learning | |
Lowe et al. | Training end-to-end dialogue systems with the ubuntu dialogue corpus | |
Nouh et al. | Understanding the radical mind: Identifying signals to detect extremist content on twitter | |
US11734329B2 (en) | System and method for text categorization and sentiment analysis | |
US11159459B2 (en) | Managing content in a collaboration environment | |
Schick et al. | True few-shot learning with Prompts—A real-world perspective | |
EP2664997A2 (en) | System and method for resolving named entity coreference | |
US11106687B2 (en) | Sentiment normalization using personality characteristics | |
US11573995B2 (en) | Analyzing the tone of textual data | |
US9633008B1 (en) | Cognitive presentation advisor | |
US20200160231A1 (en) | Method and System for Using a Multi-Factorial Analysis to Identify Optimal Annotators for Building a Supervised Machine Learning Model | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
US20170169355A1 (en) | Ground Truth Improvement Via Machine Learned Similar Passage Detection | |
KR20210023452A (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
US20170344625A1 (en) | Obtaining of candidates for a relationship type and its label | |
JP2022541444A (ja) | 機械支援型エージェントにおける自然言語応答 | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
Nasr et al. | Building sentiment analysis model using Graphlab | |
CN115269827A (zh) | 改进消息接发对话管理系统中的意图确定 | |
US20150370887A1 (en) | Semantic merge of arguments | |
Villatoro-Tello et al. | UAM's Participation at CLEF eRisk 2017 task: Towards Modelling Depressed Blogers. | |
Theophilo et al. | Explainable artificial intelligence for authorship attribution on social media | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
US10002450B2 (en) | Analyzing a document that includes a text-based visual representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6781760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |